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爱 敏 送 来 一 本 排 好 清 样 的 书稿 ， 书 名 叫 《 人 力 资源 大 数据 应 用 实践 》， 副 标 
题 更 加 动人 ， 是 “模型 、 技 术 、 应 用 场景 ”， 说 是 请 我 为 之 作 序 。 显 然 这 是 一 本 
非常 应 时 的 新 著 。 当 前 ， 从 中 央 领 导 到 普通 百姓 都 在 讲 大 数据 ， 如 果 将 自己 的 
专业 深造 与 时 代 需 求 结合 起 来 ， 不 是 一 件 大 好 事 吗 ? 于 是 ， 我 愉快 地 答应 了 她 
的 要 求 。 

翻 看 目录 ， 几 个 章节 是 相当 吸引 人 的 : 人 力 资 源 大 数据 、 大 数据 挖掘 渠道 及 
技术 方法 、 人 力 资源 大 数据 分 析 及 应 用 场景 、 人 力 资源 大 数据 平台 建设 、 人 力 资 
源 大 数据 应 用 案例 。 我 相信 ， 凡 是 对 人 力 资源 大 数据 有 所 了 解 ， 但 又 所 知 不 深 的 
读者 定 会 被 这 些 章节 内 容 紧 紧 地 吸引 住 ， 因 为 这 正 是 他 们 渴求 的 知识 啊 ! 以 往 的 
大 数据 出 版 物 不 是 没有 涉及 这 些 内 容 ， 而 是 太 技术 化 、 学 术 化 ， 不 够 切合 实用 ， 
现在 终于 有 了 这 样 一 本 专门 针对 人 力 资源 专业 的 读本 ， 岂 不 正 合 吾 意 ? 

初 读 一 遍 ， 感 觉 最 好 的 是 本 书 把 一 些 难 懂 的 问题 解释 清楚 了 。 比 如 ， 国 内 
三 大 BAT 公司 都 有 对 人 力 资源 大 数据 进行 深入 的 实践 ， 百 度 的 大 数据 人 力 资源 
平台 已 经 迭代 到 了 3.0，2014 一 2016 年 为 eHR 3.0 Smart HR 时 代 。 在 业务 转型 和 
高 速 扩张 的 环境 下 ， 百 度 需 要 HR 从 组 织 资本 和 人 力 资本 的 角度 协助 业务 决策 ， 
HR 工作 重点 开始 提升 至 为 业务 产生 价值 一 一 在 此 期 间 不 断 探索 与 实践 ， 逐 步 建 
立 起 了 人 力 资源 大 数据 平台 体系 一 一 “ 才 报 ”系统 。 通 过 更 具 交 互 性 的 系统 ， 利 
用 大 数据 预测 、 控 制 和 分 析 组 织 变革 和 人 才 发 展 。 

还 有 业内 知名 度 很 高 的 猎 聘 公司 ， 它 是 凭借 什么 风 生 水 起 、 蒸 蒸 日 上 的 ? 原 
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来 它 的 秘密 武器 就 是 掌握 了 “人 力 资 源 薪酬 大 数据 ”。 传 统 的 薪酬 产品 是 通过 邀 
请 企业 参与 薪酬 调查 , 用 问卷 、 访 谈 形 式 获取 信息 ,而 后 汇总 生成 的 。 猎 聘 的 “ 薪 
酬 数 据 库 ” 则 是 通过 “数据 加 咨询 ”的 方法 完成 的 。 在 调研 模式 上 ， 它 是 运用 大 
数据 技术 , 对 其 300 万 用 户 的 数据 进行 分 析 , 通过 获取 活跃 用 户 的 数据 分 析 而 成 ; 
在 数据 广度 上 ， 它 涵盖 了 3000 万 职业 经 理 人 的 优质 数据 ; 在 报告 时 效 上 ， 它 与 
市 场 接轨 ， 定 期 更 新 ， 在 呈现 方式 上 ， 它 能 够 在 网 站 上 登录 浏览 ， 交 互 性 很 强 。 
这 就 是 为 什么 猎 聘 公司 能 够 在 众多 人 力 资源 服务 机 构 中 脱颖而出 的 原因 。 此 外 ， 
猎 聘 在 “数据 颗粒 度 ” 上 做 得 也 很 到 位 ， 它 对 互联 网 、 金 融 、 地 产 三 大 行业 23 
个 细 分 领域 的 薪酬 状况 均 掌 握 在 手 ， 涵 盖 财 务 、 人 事 、 法 务 等 通用 职位 及 各 行业 
特有 职能 序列 ， 用 户 可 以 从 地 区 、 职 能 、 工 作 年 限 、 下 属 情况 多 个 维度 筛选 对 比 
岗位 薪酬 数据 ， 因 此 颇 获 好 评 。 有 言 道 : “得 数据 者 得 天 下 。” 我 们 在 猫 聘 公司 
上 验证 了 这 一 条 时 代 艇 言 。 

本 书 还 有 一 个 特点 ， 就 是 重视 人 力 资源 从 业者 的 可 操作 需求 。 例 如 ， 人 力 资 
源 大 数据 究竟 包括 哪些 ? 书 中 专门 给 出 了 “人 才 管 理 指标 体系 ”包含 团队 总 人 数 、 
正式 员工 人 数 、 实 习 生 人 数 、 关 键 人 才 人 数 、 人 员 齐 备 率 、 当 前 年 和 去 年 关键 人 
才 数 、 占 比 、 离 职 率 年 度 趋势 、 当 年 齐备 率 趋势 、 去 年 齐备 率 趋势 ,员工 类 型 分 布 、 
员工 学 历 分 布 、 关 键 人 才 分 布 、 员 工 年 龄 分 布 等 。 除 此 之 外 ， 还 有 人 力 资源 运 
营 管理 指标 体系 、 人 力 资源 组 织 效能 指标 体系 ， 均 可 供 实 际 工作 参考 。 如 果 你 
需要 建立 一 个 大 数据 分 析 团 队 , 那么 书 中 专门 告诉 你 应 该 怎么 办 , 要 走 多 少 步 。 
作者 还 提醒 说 ,组 建 数据 分 析 团 队 , 需要 首先 得 到 领导 的 支持 。 在 这 个 前 提 下 ， 
明确 三 个 不 同 层次 的 价值 目标 , 一 是 要 分 析 什么 问题 ; 二 是 选择 什么 样 的 专家 ; 
三 是 要 使 数据 驱动 成 为 一 种 文化 。 书 中 介绍 的 百度 “ 才 报 ” 也 颇 有 新 意 ， 能 够 让 
读者 了 解 到 百度 之 所 以 能 干 ， 是 因为 这 家 公司 人 力 资源 管理 部 门 拥 有 别人 没有 的 
人 才 数 据 挖掘 分 析 武 器 ， 它 能 够 实时 呈现 当前 组 织 与 个 人 可 能 存在 的 问题 ， 未 来 
可 能 发 生 的 情况 ， 以 及 应 该 采取 怎样 的 应 对 措施 。 

本 书 的 第 三 个 特点 ， 是 让 人 力 资源 工作 者 看 到 了 未 来 。 人 力 资源 工作 者 的 未 
来 是 怎样 的 ? 可 以 肯定 地 说 ， 是 人 力 资源 加 大 数据 。 就 是 将 我 们 目前 从 事 的 人 力 
资源 管理 与 开发 转型 升级 ， 与 大 数据 紧密 结合 起 来 ， 再 往 前 走 ， 就 是 整个 人 力 资 
源 领 域 的 智能 化 。 现 在 我 们 多 数 公司 的 人 力 管理 还 是 线 下 的 ， 使 用 的 是 冷 数据 ， 
效率 是 低下 的 ; 将 来 必 将 是 线 上 的 ， 使 用 的 是 热 数据 ， 工 作 是 高 效 的 。 书 中 讲 道 ， 
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数据 科学 家 有 一 个 强大 而 有 效 的 武器 ， 就 是 “ 叭 虫 技术 ”， 又 叫 “ 网 页 蜘蛛 ”或 
“网 络 机 器 人 ”， 它 能 够 以 系统 化 、 可 持续 的 方式 从 互联 网 上 帮 有 我 们 获取 数据 。 
最 新 的 “网 络 爬 虫 ”能 够 像 传说 中 的 神兽 贰 长 一 般 ， 张 开 大 嘴 把 互联 网 上 的 所 需 
数据 鲸 吞 而 下 ,为 我 所 用 ,而 且 永 不 满足 ! 这 将 是 一 幅 怎 样 的 令 人 激动 的 场景 啊 。 
人 ， 必 须 具 有 想象 力 。 

书 中 ， 作 者 引用 宋代 诗人 杨万里 的 两 句 诗 : “东风 和 弄 巧 补 残 山 ， 一 夜 吹 添 玉 
数 竿 。” 引 起 了 我 的 注意 。 诗 是 在 讲 山中 新 竹 春日 突起 的 。 说 是 由 于 东风 劲 吹 ， 
使 原本 荒 秀 的 山坡 也 增添 了 浴 算 新 绿 。 我 想 ， 像 我 这 般 年 纪 的 老人 ， 难 道 不 也 是 
这 样 吗 ? 大 数据 时 代 的 东风 , 让 我 们 深切 感受 到 了 科技 进步 一 日 千里 之 岁月 相 催 。 
如 果 不 抓紧 学 习 ， 真 的 就 会 落伍 了 。 我 不 仅 自己 要 以 夸 父 追 日 的 精神 努力 向 学 ， 
还 要 积极 支持 年 青 一 代 勇 于 革新 ， 和 勇敢 向 前 冲 。 只 有 这 样 ， 才 无 愧 于 一 生 献 身 的 
人 才 事 业 ， 无 愧 于 生 逢 其 时 的 伟大 时 代 ! 


王 通讯 
国务 院 突 出 贡献 专家 
中 国人 才学 葛 基 人 
国家 人 力 资源 和 社会 保障 部 中 国人 事 科学 研究 院 原 院 长 
中 国人 才 研 究 会 副 会 长 
北京 华 楼 科技 有 限 公司 专家 顾问 
2017 年 7 月 13 日 于 海棠 在 望 书斋 


时 代 的 发 展 、 技 术 的 进步 ， 必 然 带 来 企业 管理 理念 、 方 法 和 工具 的 变革 。 今 
天 , 我 们 已 经 进入 了 “大 智 移 云 ”的 时 代 , 创新 已 经 成 为 了 企业 发 展 的 重要 手段 ， 
与 其 他 的 资本 形态 相 比 ， 人 力 资本 已 经 越 来 越 处 于 领先 的 地 位 。 人 才 重 于 资金 、 
融 智 先 于 融资 ， 如 何在 竞争 日 益 激烈 的 市 场 中 持续 建立 自身 的 竞争 优势 ， 在 企业 
内 部 打造 一 个 相关 各 方 利益 和 谐 相处 、 平 衡 发 展 的 生态 系统 ， 已 经 成 为 企业 人 力 
资源 管理 者 面临 的 最 大 挑战 。 

移动 互联 网 的 发 展 使 得 人 才 数据 呈现 出 爆发 式 增长 ， 人 力 资源 大 数据 不 仅 逐 
步 成 为 完善 的 理论 体系 ， 也 将 促使 人 力 资源 大 数据 服务 成 为 一 个 新 的 服务 行业 。 
相信 在 未 来 ， 基 于 人 才 市 场 的 相关 数据 ， 基 于 行业 发 展 的 人 才 数 据 ， 基 于 企业 组 
织 效 能 的 人 才 数据 ， 基 于 人 才 自 身 和 群体 特征 的 数据 ， 这 些 数据 将 通过 行为 轨迹 
记录 、 人 才 测 评 等 方式 记录 下 来 ， 并 将 在 企业 的 人 力 资源 管理 实践 中 发 挥 越 来 越 
关键 的 作用 。 

管理 就 是 决策 、 决 策 依 赖 数 据 。 对 于 企业 人 力 资 源 管理 者 来 说 ， 无 论 是 对 过 
去 的 总 结 ， 对 现在 的 诊断 ， 还 是 对 未 来 的 预测 和 规划 都 离 不 开 数据 。 所以， 我 们 
不 仅 要 有 专业 思维 和 业务 思维 ， 还 要 有 数据 思维 和 创新 思维 。 如 何在 烟波 浩渺 的 
海量 数据 中 挖掘 出 有 用 的 数据 ， 如 何 将 大 数据 、 人 工 智 能 与 企业 人 力 资源 管理 实 
践 有 机 结合 ， 如 何在 企业 内 部 建立 人 力 资源 大 数据 分 析 模 型 和 分 析 平 台 ， 如 何 形 
成 企业 人 力 资 源 报表 体系 和 指标 体系 ， 王 爱 敏 教授 及 崇 良 、 秋 钧 先生 在 他 们 的 书 
中 从 科学 到 实践 ， 从 理念 到 案例 ， 深 入 浅 出 地 给 出 了 详尽 的 答案 。 
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大 数据 、 人 工 智能 与 企业 管理 实践 的 结合 正 处 于 迅速 发 展 和 不 断 创 新 的 过 程 
中 ， 学 习 和 创新 是 企业 人 力 资源 管理 者 的 必修 课 ， 相 信 作 者 的 这 本 书 会 给 读者 带 
来 启发 和 收获 ， 让 你 迅速 把 握 住 时 代 的 脉搏 ， 赶 上 时 代 的 步伐 。 
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= 
第 一 节 


人 力 资源 管理 战略 转型 ) 


我 们 目前 所 理解 的 人 力 资源 的 含义 是 由 管理 大 师 彼 得 。 德 鲁 克 于 1954 年 在 
《管理 实践 》 中 首先 提出 并 加 以 明确 界定 的 。 他 认为 人 力 资源 拥有 当前 其 他 资源 
所 没有 的 素质 ， 即 “协调 能 力 、 融 合 能 力 、 判 断 力 和 想象 力 ”; 它 是 一 种 特殊 的 
资源 ， 必 须 通 过 有 效 的 激励 机 制 才能 开发 利用 ， 并 给 企业 带 来 可 见 的 经 济 价值 。 

自从 彼得 德 鲁 克 提 出 “人 力 资 源 ”概念 以 来 ， 类 似 “ 炸 掉 人 力 资 源 部 ”“ 我 
们 为 什么 恨 HR”“ 人 力 资源 管理 部 门 应 不 应 该 取消 ”“ 人 力 资源 管理 部 门 能 不 
能 创造 价值 ”等 方面 的 质疑 一 直 未 断 。 特 别 是 2014 年 拉 姆 。 查 兰 发 表 了 《是 时 
候 分 拆 人 力 资 源 部 了 》 一 文 ， 更 是 引起 轩然大波 。 很 多 人 力 资源 管理 界 的 研究 者 
和 实践 者 加 入 了 这 场 激 辩 。 争 论 的 焦点 集中 于 人 力 资源 部 门 或 人 力 资源 管理 者 是 
和 否 能 为 企业 创造 价值 、 推 动 企业 业务 目标 的 实现 。 

数字 经 济 下 ， 人 力 资源 管理 及 人 才 竞 争 面临 更 多 的 挑战 ， 人 力 资源 部 门 能 否 
创造 价值 ， 是 否 真 的 要 和 人 力 资源 部 说 “再 见 ” 了 ? 


组 织 变革 与 HR 四 角色 模型 ° 


人 力 资源 管理 之 父 戴 维 。 尤 里 奇 教授 是 近 20 年 来 世界 范围 内 推动 人 力 资源 
管理 转型 和 提升 人 力 资源 价值 的 执 牛 耳 者 。《 人 力 资 源 转型 》 黄 定 了 其 人 力 资源 
管理 大 师 地 位 。 该 书 的 面世 ， 播 动 了 世界 500 强 跨国 公司 ， 比 如 微软 、 思 科 、 沃 


@ ( 美 ) 戴 维 " 尤 里 奇 . 人 力 资源 转型 一 为 组 织 创造 价值 和 达成 成 果 . 李 祖 滨 , 孙 晓 平 , 译 .北京 : 
电子 工业 出 版 社 .2015: 1-18. 
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尔 玛 、 飞 利 浦 、 西 门 子 等 企业 纷纷 按 其 建议 对 人 力 资源 管理 体系 进行 重新 设计 ， 
并 实现 了 商业 价值 的 巨大 攀升 。 在 中 国 ， 以 华为 、 联 想 、 美 的 、 万 科 为 代表 的 一 
些 知 名 企业 也 开始 实践 人 力 资源 的 重 构 和 转型 。 

国内 企业 已 经 并 正在 印证 着 18 年 前 戴 维 * 尤 里 奇 教授 提出 的 六 大 挑战 : 全 
球 化 的 挑战 、 持 续 竞 争 力 的 挑战 、 增 长 的 挑战 、 变 革 的 挑战 、 技 术 的 挑战 和 人 才 
的 挑战 。 面 对 未 来 的 竞争 ，HR 在 企业 成 功 跨 越 这 些 挑战 的 过 程 中 发 挥 着 关键 的 
作用 ， 每 个 挑战 都 充分 说 明了 HR 的 重要 性 。 


1. 全 球 化 的 特征 是 什么 ? 


全 球 化 的 竞争 不 仅仅 是 在 国内 市 场 开发 产品 ， 并 运送 到 新 市 场 ， 而 是 通过 复 
杂 的 全 球 化 网 络 运作 ， 甚 至 包括 以 某 地 为 技术 中 心 覆 盖 全 球 ， 将 产品 、 人 员 、 信 
息 在 全 球 快速 流动 以 满足 当地 需求 。 全 球 化 趋势 引发 了 新 市 场 、 新 产品 、 新 心态 、 
新 能 力 和 对 企业 的 新 思考 。 要 达到 有 效 的 全 球 化 竞争 , 企业 必须 具备 全 球 化 思维 ， 
着 力 于 培育 全 球 市 场 竞争 力 。 人 力 资源 竞争 力 无 疑 是 提升 市 场 竞 争 力 最 直接 有 效 
的 方式 ， 因 而 ， 需 要 重新 对 全 球 团队 进行 组 织 设计 ， 建 立 全 球 化 的 组 织 能 力 。 全 
球 各 地 的 人 才 、 创 意 和 信息 必须 能 无 缝 地 流动 和 沟通 ， 这 样 才 能 比较 快速 创造 出 
更 好 的 新 产品 和 服务 。 建 立 全 球 共享 心智 中 心 ， 招 募 、 培 养 和 激励 那些 具备 全 球 
视角 的 员工 。 


2. HR 的 重心 如 何 转移 ? 


如 何 建立 和 运行 客户 响应 能 力 是 组 织 面 对 未 来 竞争 的 一 个 恒定 不 变 的 课题 。 
创新 、 快 速决 策 、 成 为 行业 的 价格 或 价值 领导 者 、 有 效 连 接 供应 商 与 分 销 商 并 为 
客户 建立 价值 链 是 客户 响应 能 力 的 特征 。 将 HR 的 工作 重心 从 原来 的 内 部 活动 转 
向 供应 商 与 客户 的 价值 链 是 组 织 面 对 示 来 竞争 的 必然 。 因 为 ， 员 工 的 态度 和 客户 
的 态度 之 间 有 高 度 相关 性 。 长 期 以 来 ，HR 从 业者 及 研究 者 习惯 于 强调 组 织 内 部 
的 HR 工作 ， 很 少 关注 建立 和 运行 客户 响应 能 力 。 现 在 ， 要 求 HR 的 工作 重心 由 
组 织 内 部 转向 组 织 所 处 的 价值 链 。 比 如 ， 在 基于 价值 链 的 员工 奖励 计划 中 ， 可 以 
让 供应 商 和 客户 成 为 组 织 经 济 价值 的 评估 人 和 分 配 者 。 因 而 ， 所 有 HR 工作 必须 
依据 客户 标准 重新 严格 定义 。 
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3. 怎样 提升 盈利 能 力 ? 


不 能 盈利 的 企业 是 不 负责 任 的 企业 ， 必 将 很 快 消亡 。 番 利 能 力 始终 是 企业 重 
要 的 经 营 课题 。 企 业 熏 利 的 途径 主要 是 两 个 : 一 是 降低 成 本 ; 二 是 增加 营 收 。 过 
去 10 年 , 大 多 数 企 业 都 致力 于 降低 成 本 来 提升 盘 利 能 力 , 通过 裁员 、 扁 平 化、 整合 、 
再 造 工 程 、 质 量 管理 等 工作 ， 利 用 最 少 的 资源 做 更 多 的 事情 ， 通 过 提高 效率 、 改 
进 流程 、 降 低 成 本 等 方式 提升 企业 的 乔 利 能 力 。 

德 怀 特 。 格 尔 茨 等 人 访谈 了 180 位 美国 CEO， 发 现 有 94% 的 人 致力 于 增加 
营 收 ， 而 且 至 今 仍 把 营 收 作为 最 主要 的 经 营 目标 。 增 加 营 收 和 HR 有 关 吗 ? 首先 
看 增加 营 收 的 几 条 途径 。 第 一 ， 充 分 利用 客户 资源 创造 营 收 增长 ， 努 力 吸引 现 有 
客户 多 购买 其 产品 。 通 用 电气 公司 组 成 了 “无 边界 销售 团队 ”， 这 些 团 队 成 员 来 
自 于 通用 电气 不 同 的 经 营 单元 ， 合 作 交 又 销 售 通用 电气 的 产品 。 善 用 客户 资源 增 
加 营 收 必须 建立 流程 、 培 训 人 员 ， 以 快速 响应 客户 的 需要 ， 员 工 必须 全 心服 务 于 
客户 。 第 二 ， 增 加 营 收 的 途径 是 发 挥 企业 的 核心 能 力 ， 跨 部 门 的 产品 团队 需要 确 
定 他 们 的 核心 能 力 ， 将 核心 能 力 转化 成 新 产品 。 这 两 个 途径 ， 无 论 哪个 ， 都 需要 
重新 思考 组 织 及 HR 工具 ， 才 能 通过 组 织 运 营 实现 增长 目标 。 追 求 利润 增长 的 直 
线 经 理 与 HR 人 员 必 须 找 出 设计 和 运行 组 织 的 新 方案 。 


4. 如 何 定义 组 织 能 力 ? 


组 织 能 力 是 企业 竞争 力 的 DNA， 是 企业 超越 竞争 对 手 的 能 力 所 在 。 组 织 能 
力 包 括 硬 能 力 , 诸如 开拓 新 市 场 的 技术 等 ， 也 包括 软 能 力 ， 如 快速 行动 的 能 力 等 。 
对 于 软 能 力 ， 有 研究 表明 其 体现 在 四 个 方面 : 一 是 建立 组 织 信心 的 能 力 ， 让 组 
织 内 外 人 员 相 信 管理 者 言行 一 致 ， 并 维护 他 们 的 声誉 ， 二 是 消除 组 织 边 界 的 能 
力 ， 让 信息 与 观点 能 够 跨越 组 织 层级 边界 、 部 门 边界 和 外 部 边界 ， 顺 畅 流 动 ; 
三 是 培养 组 织 变革 的 能 力 ， 以 及 促进 组 织 持续 创新 的 灵活 性 和 敏捷 度 ; 四 是 持 
续 学 习 和 自我 突破 的 能 力 。 企 业经 营 者 有 责任 识别 和 培养 这 些 能 力 以 提高 公司 
竞争 力 。” 

HR 必须 首先 框 定 出 哪些 组 织 是 必 备 的 能 力 ， 然 后 针对 性 地 设计 工作 内 容 。 


@ 〈 美 ) 戴 维 " 尤 里 奇 . 人 力 资源 转型 一 -为 组 织 创造 价值 和 达成 成 果 . 李 祖 滨 , 孙 晓 平 , 译 . 北京 : 
电子 工业 出 版 社 .2015: 10. 
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5. 怎样 利用 信息 与 技术 ? 


如 今 的 技术 创新 速度 日 新 月 异 。 互 联网 、 人 工 智能 等 为 企业 创造 了 全 新 的 环 
境 。 直 线 经 理 和 HR 有 责任 重新 定义 工作 ， 必 须 思 考 如 何 让 技术 成 为 工作 中 不 可 
或 缺 的 内 容 ， 让 技术 成 为 生产 力 。 


6. 如 何 保障 智力 资本 ? 


在 持续 变化 、 全 球 化 、 高 度 依赖 技术 的 企业 环境 中 ， 吸 引 、 保 留 人 才 成 为 最 
主要 的 竞争 之 一 。 要 保障 组 织 智力 资本 ， 一 是 需要 领导 力 提升 与 领导 梯队 建设 ， 
同时 做 到 所 有 的 想法 和 信息 在 公司 内 部 分 享有 一 些 大 型 公司 正在 尝试 利用 技术 ， 
比如 互联 网 与 大 数据 建立 知识 网 络 ， 让 雇员 能 够 快速 获取 并 分 享 信息 。 最 后 ， 还 
需要 改变 企业 的 评价 方法 ， 传 统 的 评价 方法 主要 看 重 以 利润 为 核心 的 经 济 资本 ， 
现在 ， 需 要 增加 对 智力 资本 的 评价 。HR 人 员 未 来 的 挑战 之 一 是 如 何 寻 找 并 使 用 
这 类 评价 方法 。 

总 之 ， 当 竞争 被 定义 为 “以 独特 方式 为 客户 创造 价值 ”时 ， 企 业 必须 找 出 新 
颖 而 独特 的 方式 服务 客户 ， 而 组 织 能 力 是 关键 。 组 织 能 力 的 提升 首先 应 该 培育 组 
织 能 力 的 领导 者 ， 同 时 需要 创造 价值 和 达成 成 果 的 HR。 由 此 ， 戴 维 。 尤 里 奇 教 
授 提 出 了 人 力 资源 管理 的 转型 ，HR 需要 四 种 角色 的 转变 ( 表 1-1) 。 


表 1-1 ”人力 资源 四 角色 模型 9 


战略 合作 伙伴 使 人 力 资源 策略 与 业务 战略 


对 战略 的 执行 (Strategic Partner) 保持 一 致 : 组 织 诊断 


建立 起 高 效 的 HR 效率 专家 


织 造 , 
基础 实务 流程 (Administrative Expert) 组 织 流程 再 造 ， 共 享 服务 


提高 员工 的 承 员工 支持 者 倾听 员工 声音 并 向 其 反馈 : 
诺 与 能 力 (Employee Champion) 为 员工 提供 资源 

创造 一 个 轩 新 变革 推动 者 管理 转型 与 变革 : 确保 变革 
的 组 织 (Change Agent) 的 能 力 


@ ( 美 ) 戴 维 。 尤 里 奇 . 人 力 资源 转型 一 为 组 织 创造 价值 和 达成 成 果 . 李 祖 滨 , 孙 晓 平 , 译 .北京 : 
电子 工业 出 版 社 .2015: 23. 


6 | 人 力 资源 大 数据 应 用 实践 


匡 从 HR 四 角色 模型 到 HR+ 三 支柱 


最 近 的 畅销 书籍 《HR+ 三 支柱 一 一 人 力 资源 管理 转型 升级 与 实践 创新 》， 由 
腾讯 公司 人 力 资源 平台 部 总 经 理 马 海 刚 先 生 、 中 国人 民 大 学 彭 剑 锋 教 授 及 西 楠 博 
士 撰写 ， 是 首部 系统 性 梳理 HR 三 支柱 模型 的 西方 探索 与 中 国 实践 的 著作 ， 深 度 
解读 了 腾讯 、 华 为 、 阿 里 巴巴 对 HR 三 支柱 模式 的 创新 。 书 中 提 道 ，HR 三 支柱 
模型 是 IBM 基于 人 力 资源 管理 大 师 戴 维 。 尤 里 奇 的 思想 ， 结 合 自身 的 人 力 资源 
转型 实践 提出 的 。 以 三 支柱 为 支撑 的 人 力 资 源 体系 源 于 公司 战略 ， 服 务 于 公司 业 
务 ， 其 核心 理念 是 通过 组 织 能 力 再 造 ， 让 HR 更 好 地 为 组 织 创造 价值 。 

该 研究 结合 前 沿 的 理论 观点 ， 以 及 华为 、 腾 讯 、 阿 里 巴巴 等 中 国企 业 在 HR 
三 支柱 方面 的 转型 升级 与 实践 创新 ， 对 HR 三 支柱 模型 进行 了 视角 扩展 、 平 台 支 
撑 、 厘 清 对 象 \ 文 化 融合 等 方面 的 升级 ,提出 了 中 国企 业 的 HR 三 支柱 模型 (图 1-1)。 


: 问 共享 服务 中 心 一 人 到 : 处理 HR 交 易 
从 : 处 理 常见 问题 一 之 新 一 调整 


@ 
@ 员 工 查询 
Sy 和 福利 问题 
运营 有 @ 其 他 
交付 设计 
a 
主要 
NO 关注 : 
案 卓越 至 上 专家 中 心 


关注 : 
人 力 资源 AN 
业务 伙伴 
更 多 时 间 进 行 方案 设计 
更 多 时 间 进 行内 部 光 渔 主 要 
se 
组 织 员工 管理 者 


COE SDC HRBP 
为 组 织 打破 内 外 ”通过 HR 共享 服 ”为 业务 提供 特种 
壁垒 营造 开放 环 ” 务 产 品 交付 为 。 部 队 式 的 支持 ， 
境 、 驱 动 变革 用 户 创造 价值 。 帮助 业务 成 功 


图 1-1 HR 三 支柱 模型 
注 : 图 中 COE 为 专家 中 心 (Center of Expertise) 的 英文 缩写 ，SDC 为 共享 交付 中 心 (Shared Deliver 
Center) 的 英文 缩写 ，HRBP 为 人 力 资源 业务 伙伴 (HR Business Partner) 的 英文 缩写 。 


四 马 海 刚 ， 彭 剑 锋 ， 西 楠 .HR+ 三 支柱 一 一 人 力 资源 管理 转型 升级 与 实践 创新 . 北京 中 国人 民 大 
学 出 版 社 .2017:1-3. 
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中 共享 交付 思想 来 自 华 为 端 到 端的 深度 影响 ， 产 品 经 理 思维 是 腾讯 成 功 的 
精髓 ， 也 是 人 力 资源 管理 新 元 素 。 


E | 人力 资源 创造 新 价值 的 新 趋势 


延伸 阅读 
本 人 力 资源 管理 之 父 戴 维 "万里 奇 教授 应 肯 耐 珂 萨 牧 请 ， 在 上 海 进 


| 行 了 为 期 一 天 的 人 力 资源 领域 最 新 研究 成 果 的 主题 演讲 ， 深 入 浅 出 
”地 分 享 了 人 力 资源 创造 新 价值 的 三 大 趋势 。 
趋势 之 一 : 由 外 而 内 即 人 力 资源 的 价值 不 再 是 HR 做 了 什么 ， 而 
是 从 利益 相关 者 视角 看 HR 创造 了 什么 价值 ( 图 1-2 ) 。 
@ Market value 市 场 价值 
® Financial performance 


财务 业绩 
@ Intangibles 无 形 资产 


@ Reputational value 
声誉 价值 

® Financial performance 
社会 责任 

® Regulatory oversight 

管理 监督 


Investors/ 
Owners 
投资 人 / 
股东 、 


(Communities/ 
Regulators 
社区 /监管 者 


® Cust h: 、 i 
ustomer Share _ Key Stakeholders 


客户 占有 率 Partners/ ® Collaborative value 
- 一 合 
® Target customers 人 关键 的 利益 相 车 二 性 信任 ， Je 是 作价 ss 
a, > 个 . 销 商 合作 估 们 关系。 
a Oo : 
客户 亲密 度 ® Outsourcing 


Investors/ 


rtp ve ee ool Employees Owners @ strategic value 战略 价值 
@ Competence 胜任 力 员工 机 / 股 le Shaping strategy 制定 战略 
@Commitment 承诺 Ss ® Creating organization traction 


@ Contribution 贡献 创作 组 织 吸 引力 


1-2 ”HR 为 利益 相关 者 创造 价值 


趋势 之 二 : HR 最 重要 的 功能 将 定位 于 产 出 人 才 、 提 升 领导 力 以 
及 提升 组 织 文化 (图 1-3 ) 。 


Q@ ( 美 ) 戴 维 。 尤 里 奇 . 与 亚 之 父 戴 维 。 尤 里 奇 的 零 距 离 互动 [应 肯 耐 珂 萨 邀请 于 2016 年 11 
月 16 日 在 上 海 演 讲 ( HRoot ) ] .http: //www.hroot.com/contents/61323427.html. 


A 
3 
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Hieh Talent 人 才 
高 下 Leaders 领导 者 
Workforce 劳动 力 - 
People 人 员 Leadership 领导 力 
个 
人 
Culture 文化 
Workplace 工作 场所 
Process 流程 
Low 
低 
Low 组 织 能 力 High 
低 高 
1-3 HR 创造 什么 价值 
趋势 之 三 : HR 转型 将 从 HR 从 业者 个 人 、HR 职 能 团队 两 个 层面 
展开 (图 1-4) 。 


HR outside/in 由 内 而 外 的 HR 
@ Context 环境 
@ Stakeholders 利益 相关 者 


1 
Business 
Context 
商业 环境 
(Why 为 什么 ) 


HR Value 
Proposition 
人 力 资源 价值 主张 


(How 怎么 做 ) 
3 


HR Outcomes/Mission HR 
产 出 /使 命 

@ Talent 人 才 

@ Leadership 领导 力 


图 1-4 重新 设计 HR 
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HR 的 胜任 力 模型 

戴 维 。 尤 里 奇 提出 ， 在 VUCA[ 不 稳定 ( Volatile ) 、 不 确定 
(Uncertain ) 、 复 杂 ( Complex ) 、 模 糊 ( Ambiguous ) ] 时 代 ， 对 人 
力 资源 胜任 力 提出 了 更 高 的 要 求 ， 重 构 了 人 力 资源 个 人 胜任 力 模型 ， 
即 战略 定位 者 、 文 化 和 变革 倡导 者 、 合 规 管控 者 、 人 力 资 本 管理 
者 、 数 据 的 设计 者 和 解读 者 、 薪 酬 福 利 大 管家 、 可 信 赖 的 行动 派 、 
技术 和 媒体 的 整合 者 ( 图 1-5 ) 。 


人 力 资本 管理 者 


薪酬 福利 
大 管家 


Change 
Champion 


Paradox Navigator ; 可 信赖 的 
矛盾 玖 导 者 \J pe 行动 派 
Technology 
and Media 
Integrator 技术 和 媒体 的 
整合 者 


数据 的 设计 者 和 解读 者 
图 1-5 戴 维 * 尤 里 奇 HR 胜任 力 模型 


戴 维 。 尤 里 吉 教 授 通过 对 “HR 如 何 才能 参与 组 织 决策 ”相关 调 
研 结 果 的 分 析 ， 发 现 战略 定位 者 、 可 信赖 的 行动 派 、 矛 盾 足 导 者 三 
项 胜任 力 与 之 相关 度 最 高 。 并 就 这 三 项 胜任 力 释 义 、 培 养路 径 做 了 
说 明 : 

第 一 ， 利 益 相 关 者 的 价值 来 自 于 战略 定位 者 (图 1-6) 。 
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Competency Knowledge & skills Development 
Definition needed Opportunities 
胜任 力 的 定义 需要 的 知识 和 能 力 发 展 机 会 
@ Tuming business 争 Strategic thinking 战略 争 See industry and business 
knowledge into a set 思维 trends 领会 行业 和 商业 趋 
of actions 将 商业 知识 | 争 Business context 商业 势 
转化 为 一 系列 行为 环境 全 Spend time with externals 
@ Interpret the global 使 Current events 时 事 关注 外 部 关系 〈 客 户 、 投 
business context 解读 | 争 Industry trends 行业 趋 资 者 、 社 区 ) 
全 球 商业 环境 势 全 Join earnings calls 参加 财 
@ Decoding customer 急 Competitor trends 竞争 会 议 
expectations 解码 客 者 趋势 急 Attend customer events 参 
户 期 望 全 Stakeholder assessment 加 客户 活动 
@ Understanding internal 利益 相关 者 评估 〈 客 @ Review competitor's annual 
business operations 了 户 、 投 资 人 、 竞 争 者 、 reports 评估 竞争 者 的 年 报 
解 内 部 业务 运营 情况 监管 者 ) @ Participate in social media 
参与 社会 媒体 


图 1-6 战略 定位 者 


第 二 ， 个 人 的 效果 来 自 于 可 信赖 的 行动 派 ( 图 1-7 ) 。 


Competency 
Definition 
胜任 力 的 定义 


Knowledge & skills 
needed 
需要 的 知识 和 能 力 


Development 
Opportunities 
发 展 机 会 


全 Helpindividualssee |@ 
how they connect their 
work to strategy 帮助 
员工 找到 其 工作 与 公 | 令 
司 战略 的 相关 性 

@ Influenceandrelateto | @ 
others 影响 和 连接 他 
大 多 

@ Inprove through self- 
awareness 通过 自我 | 争 
意识 来 进步 


Follow-through on all 
commitments 兑现 所 
有 的 承诺 

Build relationships of 
trust 建立 信任 管理 
Network with others 
建立 社交 网 络 

Take proactive positions| 
采取 积极 主动 的 方式 
Communicate effectively 


有 效 沟通 


图 1-7 可 信赖 的 行动 派 


急 Take positions on business, 


organization and people and 
defend them 对 业务 、 组 织 、 
员工 负责 ， 保 护 他 们 的 权益 


G Join and lead professional 


associations 加 入 并 领导 专业 
协会 


全 Work to build personal 


relationships of trust 努力 建立 
互信 的 人 际 关 系 


全 Seek ways to learn and improve 


oneself 寻找 学 习 和 自我 提高 
的 途径 


全 Submit presentations to 


conferences 在 会 议 上 积极 发 


百 


第 三 ， 商 业 来 自 于 矛盾 疏导 者 (图 1-8 ) 。 


Competency 
Definition 
胜任 力 的 定义 


Knowledge & skills 
needed 
需要 的 知识 和 能 力 


@ See alternative sides of 


an issue 不 同 角度 看 问 
题 


@ Be able to move from 
convergence to 
divergence and back 
again 兼顾 统一 与 分 歧 

@ Navigate tensions so that 
organization adapts to 
opportunities 缓解 紧张 
关系 ， 使 组 织 积极 抓 
住 机 遇 


@ See different sides of an 
issue 不 同 角度 看 问题 

全 Able to disagree without 
being disagreeable 能 平 
和 地 表达 反对 的 观点 

@ Willing to point of options 
to get debate, but create 
closure to get focus 有 发 
起 讨论 的 意识 ， 也 有 结 
ed 并 统一 意见 的 能 


图 1-8 矛盾 疏导 者 


鼎 R Al 时 代 与 人 力 资源 管理 
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Development 
Opportunities 
发 展 机 会 


@ Leam to manage conflict 
and tension without making 
it personal 学 会 管理 冲突 
和 紧张 关系 ， 不 把 问题 私 
人 化 

@ Increase divergent thinking 
by spending time with those 
not like you 结识 与 你 想法 
不 同 的 人 ， 增 强 发 散 性 思 
维 

@ Increase convergent thinking 
by facilitating groups to 
consensus 通过 促成 群体 达 
成 共识 增强 求 同 思维 


人 类 当前 正 处 在 全 球 产业 深度 变革 的 关键 阶段 ,第 一 次 工业 革命 是 动力 革命 ， 


以 蒸汽 机 的 广泛 使 用 为 代表 ， 以 英国 为 主导 ， 人 类 进入 蒸汽 时 代 ， 第 二 次 工业 革 
命 是 能 源 革命 ， 以 电力 的 广泛 使 用 为 代表 ， 以 美国 为 主导 ， 人 类 进入 电气 时 代 ; 
第 三 次 工业 革命 (或 者 说 第 一 次 信息 革命 ) ， 是 计算 革命 ， 以 计算 机 的 广泛 应 用 
为 代表 ， 美 国 主导 ， 人 类 进入 半导体 信息 时 代 。 目 前 ， 当 云 计 算 、 大 数据 、 智 能 
终端 和 网 络 这 四 种 力量 集聚 在 一 起 ， 新 的 产业 革命 已 能 看 到 雏形 ， 第 四 次 工业 革 
命 〈 也 就 是 第 二 次 信息 革命 ) 正在 酝酿 。 


1.Al 时 代 的 思维 方式 


在 第 四 次 工业 革命 背景 下 , 数字 经 济 影响 力 在 多 方面 显现 。 数字 经 济 对 生活 、 
工作 、 经 济 、 社 会 发 展 的 贡献 正在 越 来 越 大 ， 据 麦肯锡 全 球 研究 院 (McKinsey 
Global Institute) 的 测算 ， 中 国 数字 经 济 占 GDP 的 比重 已 超过 美国 、 法 国 和 德国 。 
2013 年 ， 中 国 的 GDP 指数 升 至 4.4%， 已 经 达到 全 球 领 先 国家 的 水 平 。 另 据 波 
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士 顿 咨询 公司 发 布 的 报告 《 迈 向 2035: 4 亿 数 字 经 济 就 业 的 未 来 》 中 预测 ，2035 
年 中 国 整体 数字 经 济 规模 将 接近 16 万 亿美 元 ， 数 字 经 济 渗透 率 48%， 总 就 业 容 
量 达 4.15 亿 。® 以 互联 网 、 云 计算 、 大 数据 、 物 联网 、 人 工 智能 等 为 代表 的 数字 
技术 ， 将 使 组 织 迅 速 实现 数字 化 转型 。 

人 工 智 能 (Artificial Intelligence，AI) 是 一 种 技术 ， 能 够 通过 学 习 提 出 
自己 的 结论 来 模仿 人 类 行为 ， 表 现 为 可 以 理解 复杂 内 容 ， 参 与 和 人 类 的 自然 
对 话 ， 提 升 人 类 认 知 表现 (也 叫做 认 知 计算 ) ， 或 者 代替 人 来 执行 非 例 行 的 工 
作 任 务 。 

“ 当 未 来 已 来 , 而 你 又 不 是 未 来 的 一 部 分 的 时 候 , 会 发 生 什么 ? “百度 创始 人 、 
董事 长 兼 首席 执行 官 李彦宏 认为 ， 人 工 智 能 时 代 已 经 到 来 ， 要 适应 这 个 时 代 ， 我 
们 的 思维 方式 就 需要 做 一 些 转换 。 因 此 ， 李 彦 宏 提 出 了 五 点 AI 时 代 必 不 可 少 的 
新 思维 。 第 一 ， 首 先 要 承认 : 手机 还 会 长 期 存在 ， 但 是 移动 互联 网 的 机 会 已 经 不 
多 了 。 新 的 时 代 带 来 的 是 新 的 机 会 , 一 些 常规 的 做 法 已 经 不 能 跟 上 时 代 的 步伐 了 。 
第 二 , 就 是 要 从 Think Mobile 转变 为 Think AI, 从 Mobile First 变 成 AI First。 第 三 ， 
AI 时 代 一 个 很 典型 的 特点 是 软 硬 结合 。 要 更 多 地 去 关注 软件 和 硬件 的 结合 处 能 
够 有 哪些 创新 。 第 四 ， 就 是 数据 秒杀 一 切 算法 ， 但 是 真正 推动 这 个 社会 进步 的 还 
是 算法 ， 还 是 技术 。 第 五 ， 如 果 重 新 用 AI 的 方式 来 做 互联 网 产品 ， 就 实现 了 降 
维 攻击 。® 


2. Al 重新 定义 HR 


数字 技术 正在 打破 传统 的 商业 模式 、 业 务 流程 和 人 才 管 理 ， 在 从 根本 上 改变 
组 织 运 作 的 方式 ， 使 组 织 迅速 数字 化 。 此 种 情况 下 ， 数 字 化 组 织 需 要 数字 化 的 
HR， 包 括 设计 思维 、 行 为 经 济 学 、 社 交 网 络 、 移 动 应 用 、 人 力 分 析 及 云 技术 ， 
以 改善 员工 体验 ， 树 立 雇主 品牌 ， 提 高 员工 为 公司 带 来 的 价值 。 人 力 分 析 正 在 成 
为 组 织 的 新 常态 ， 数 据 驱动 HR 呈现 快速 发 展 趋势 。 人 力 分 析 成 为 HR 专业 人 士 
的 核心 技能 ， 公 司 正 在 积极 想 办 法 来 捕获 员工 数据 ， 并 将 其 与 业绩 相关 联 ， 以 帮 
助 他 们 充分 认识 并 最 大 限度 为 企业 带 来 价值 。2017 年 ， 高 影响 力 人 力 分 析 研究 、 
人 力 分 析 功 能 的 开发 方式 、 支 持 人 力 分 析 的 工具 和 技术 、 劳 动力 投资 回报 率 成 为 


@ ”波士顿 咨询 . 迈 向 2035: 4 亿 数 字 经 济 就 业 的 未 来 . 商学 院 .2017.2. 
@@， 李彦宏 .AI 时代 的 思维 方式 .http://news.hiapk.conyinternet/s5924faba6f76.html. 
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高 频率 研究 话题 。 

埃 森 哲 大 中 华 区 管理 咨询 主管 ， 人 才 与 组 织 董事 总 经 理 黄 雪 明 提 出 ， 未 来 十 
年 , AI 将 大 举 进 军 商 界 。 过去， 新 技术 主要 对 蓝领 和 服务 类 岗位 产生 颠覆 性 影响 
但 如 今 ， 人 工 智能 将 影响 到 企业 人 才 管 理 的 各 个 层级 一 一 从 首席 高 管 到 一 线 管理 
者 。” 首先 ，AI 将 终结 行政 管理 ， 管 理 者 一 半 的 时 间 都 花 在 了 协调 和 管控 上 ， 诸 
如 时 间 安 排 、 资 源 分 配 及 报告 等 部 分 工作 未 来 会 交 由 智能 机 器 完成 。 目 前 已 经 有 
一 些 领先 的 新 闻 机 构 和 华尔街 金融 机 构 开 始 利用 人 工 智能 报告 器 ， 比 如 美 联 社 在 
人 工 智 能 软件 机 器 人 的 协助 下 ， 将 季度 收益 报告 的 发 放 范围 从 300 家 企业 扩大 到 
近 3000 家 ， 极 大 节约 了 记者 的 时 间 ， 可 以 把 更 多 的 精力 集中 于 调查 研究 和 深入 
报道 。 其 次 ， 人 工 智能 已 经 渗透 到 专业 的 人 力 资源 领域 ， 可 以 通过 人 类 情感 和 个 
性 特点 进行 评估 并 采取 相应 行动 .例如 ,招聘 网 站 Jobaline 利 用 智能 语音 分 析 算 法 ， 
来 评估 求职 者 。 该 算法 会 对 求职 者 讲话 的 副 语 进行 分 析 ， 如 语气 、 语 调 的 抑 扬 顿 
挫 等 ， 预 测 某 种 特定 语音 所 反映 的 个 人 情绪 ， 并 据 此 确定 该 求职 者 可 能 胜任 的 工 
作 类 型 。 人 工 智能 可 以 承担 并 加 速 日 常 工作 ， 并 提供 强大 的 分 析 支 持 ， 新 一 代 的 
管理 者 的 职责 将 发 生变 化 ， 管 理 者 需要 掌握 新 的 技能 。 

人 工 智 能 ， 作 为 管理 者 ， 接 受 还 是 拒绝 ?可 能 不 同 层级 、 不 同年 龄 、 不 同 环 
境 下 的 管理 者 的 态度 会 有 不 同 。 但 不 管 怎样 ， 首 先 ， 毕 竟 AI 时 代 已 经 到 来 ， 数 
字 经 济 下 的 数字 组 织 需 要 HR 先 要 适应 AI 技术 ， 并 参与 到 指导 智能 机 器 的 工作 
中 去 。 有 调查 显示 ， 管 理 者 对 人 工 智能 的 信任 度 ， 取 决 于 他 对 人 工 智能 系统 运作 
方式 的 了 解 程度 。 最 终 ， 管 理 者 会 发 现 ， 人 工 智能 有 利于 扩展 (而 非 遏 制 ) 人 类 
潜力 一 一 并 因此 更 愿意 接纳 该 技术 。 其 次 ， 人 工 智 能 承担 的 基本 是 常规 性 工作 ， 
辅助 管理 者 的 决策 ， 诸 如 数据 解读 、 理 念 发 展 、 决 策 过 程 等 判断 性 和 决策 性 的 工 
作 将 成 为 管理 者 的 重心 。 最 后 ， 人 工 智能 是 不 能 完全 代替 管理 者 工作 的 ， 还 因 管 
理 者 的 判断 力 和 决策 力 是 “群体 智力 ”， 涉 及 人 际 关 系 和 组 织 行为 ， 尤 其 在 更 为 
复杂 的 环境 中 ， 判 断 力 和 决策 力 通常 是 个 人 和 团队 不 同 观点 、 洞 见 及 经 验 之 间 激 
荡 、 融 合 的 结果 ， 它 需要 的 是 社会 关系 网 络 、 员 工 发 展 与 指导 、 团 队 协 作 等 技能 ， 
针对 企业 蝇 须 解决 的 问题 制定 解决 方案 。 因 而 ， 战 略 发 展 、 数 字 能 力 、 创 造 性 思 
维 、 创 造 力 和 试验 、 数 据 分 析 与 解释 、 社 交 能 力 等 将 是 未 来 需要 的 新 技能 。 


Q@ 黄 雪 明 . 埃 森 哲 : 人 工 智能 将 重新 定义 人 才 管 理 .http://www.sohu.conya/128690839_390227. 
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号 凡 循 证 式 人 力 资源 管理 变革 


人 力 资 源 管理 对 于 组 织 战略 目标 的 实现 和 竞争 优势 的 获得 所 具有 的 战略 作用 已 
经 得 到 了 充分 认识 。 组 织 内 各 级 领导 者 和 管理 者 在 人 力 资源 管理 方面 投入 的 时 间 、 
精力 、 资 金 等 逐渐 增多 。 组 织 期 望 自 己 的 人 力 资源 管理 政策 和 实践 能 够 吸引 、 招 募 、 
激励 、 保 留 住 合适 的 员工 。 但 是 ， 随 着 人 力 资源 管理 的 投入 不 断 增加 ， 企 业 产生 了 
一 些 困惑 : 人 力 资 源 管理 政策 、 管 理 活 动 及 资金 投入 是 否 产生 了 合理 的 回报 ? 是 
否 达 到 了 预期 效果 ?这 就 需要 对 组 织 的 人 力 资源 管理 活动 进行 科学 研究 和 论证 ， 
以 可 靠 的 事实 和 数据 验证 人 力 资源 管理 的 有 效 性 。 这 就 需要 循 证 式 人 力 资源 管理 。 


1. 什么 是 “ 循 证 ”一 一 源 于 循 证 医学 


“ 循 证 ”来 源 于 循 证 医学 。 医 学 是 一 门 十 分 古老 的 学 科 。20 世纪 70 年 代 ， 英 
国 的 内 科 医 师 科 克 伦 (Archie Cochrane) 在 流行 病 学 研究 中 提出 “ 循 证 ”的 思路 。 
科 克 伦 循 证 探索 的 路 径 是 根据 特定 的 疾病 及 其 诊疗 方法 ， 将 所 有 的 相关 对 照 实验 资 
料 联 系 起 来 进行 综合 分 析 ， 并 随 着 新 的 临床 试验 不 断 更 新 ， 以 便 得 出 更 为 可 靠 的 结 
论 。 其 理论 的 核心 是 不 要 关于 以 往 的 经 验 ， 也 不 要 迷信 书 上 的 教条 ， 而 要 根据 临床 
证 据 ， 广 泛 采 集 证 据 进行 系统 分 析 ， 以 提高 医疗 效果 。80 年 代 ， 牛 津 大 学 的 流行 
病 学 家 戴 维 。 萨 基 特 〈David Sackett) 成 为 循 证 医学 的 真正 创立 者 ， 他 把 循 证 医学 
定义 为 “慎重 、 准 确 和 明智 地 应 用 所 能 获得 的 最 好 研究 证 据 来 确定 患者 治疗 措施 ”。 

当然 ， 传 统 医学 并 非 不 重视 证 据 ， 更 不 是 反对 寻找 证 据 。 实 际 上 传统 医学 十 
分 强调 临床 实践 的 重要 性 ， 强 调 在 实践 中 善于 寻找 证 据 ， 善 于 分 析 证 据 和 善于 根 
据 这 些 证 据 解决 临床 实际 问题 。 但 传统 医学 强调 的 证 据 和 循 证 医学 所 依据 的 证 据 
并 非 一 回 事 。 在 传统 医学 的 模式 下 医疗 活动 本 质 上 就 是 一 种 经 验 加 实验 的 活动 ， 
所 以 ， 没 有 不 重视 证 据 的 医生 。 医 师 详 细 询 问 病史 、 系 统 作 体检 ， 进 行 各 种 实验 
室 检 查 ， 力 求 从 中 找到 有 用 的 证 据 一 一 阳性 发 现 ， 医 师 试验 性 地 应 用 治疗 药物 ， 
观察 病情 的 变化 ， 药 物 的 各 种 反应 ， 从 而 获取 评价 治疗 方法 是 否 有 效 ， 是 否 可 行 
的 证 据 。 这 种 看 病 方法 确实 是 有 效 的 ， 然 而 也 是 有 局 限 性 的 。 


2. 人 力 资源 管理 需要 “ 循 证 ” 吗 ? 
首选 思考 几 个 问题 : 你 是 否 做 出 正确 的 决策 ? 还 是 只 会 抄袭 别家 公司 看 起 来 
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可 行 的 策略 ? 或 根据 自己 深信 不 移 的 观念 来 采取 行动 ? 你 是 否 一 再 重复 旧 有 的 做 
法 ， 却 不 曾 认真 思 索 这 些 做 法 背后 有 什么 样 的 事实 证 据 和 逻辑 ? “最 佳 组 织 拥有 
最 佳人 才 ”“ 人 金钱 性 的 奖励 制度 驱动 着 企业 绩效 ”…… 这 些 都 是 大 家 耳熟能详 的 
格言 ， 它 们 也 驱动 着 企业 的 每 日 活动 ， 太 多 企业 的 经 营 理念 就 建立 在 这 些 有 瑕 辣 
的 “最 佳 实务 做 法 ”上 ， 而 它们 所 提供 的 却 都 是 一 些 肤浅 的 、 不 堪 一 击 的 、“ 万 
灵 丹 式 ”的 错误 资讯 。 如 果 领 导 人 根据 这 些 可 疑 的 资讯 或 情报 来 做 决策 ， 他 们 无 
异 于 将 自己 的 组 织 摆设 在 悬崖 峭壁 的 危险 边缘 。 

作为 HR， 是 否 经 常 思考 以 下 问题 ? 

事情 的 原因 ? 事情 的 结果 ? 

我 们 的 人 力 资 源 管 理 活动 究竟 在 多 大 程度 上 是 有 效 的 ? 

我 们 在 人 力 资 源 管理 方面 的 支出 与 其 他 竞争 者 相 比 处 于 何 种 水 平 ? 

我 们 应 当 如 何 通过 改进 人 力 资 源 管理 实践 来 提高 整个 公司 的 运营 效率 ? 

实际 上 ， 在 实践 中 ， 不 少 人 力 资源 管理 者 仍旧 习惯 于 依靠 直觉 、 经 验 或 是 模 
仿 所 谓 “最 佳 实践 ”来 进行 决策 ， 而 忽视 了 对 科学 证 据 的 利用 。 大 数据 时 代 的 来 
临 ， 让 人 力 资本 用 数量 的 方式 来 进行 投资 分 析 和 管理 成 为 可 能 。 但 未 来 的 挑战 不 
是 数据 缺乏 ， 而 是 如 何 有 效 地 选取 和 利用 数据 。 


3. 什么 是 循 证 式 人 力 资源 管理 


循 证 式 变革 代表 了 一 种 新 的 人 力 资源 管理 决策 思维 模式 和 方法 。 循 证 指 做 事 
要 基于 证 据 , 而 不 是 模糊 的 设想 或 感觉 。 循 证 式 人 力 资源 管理 指 运用 数据 、 事实 、 
分 析 方 法 、 科 学 手段 、 有 针对 性 的 评价 及 准确 的 案例 研究 ， 为 人 力 资源 管理 方面 
的 建议 、 决 策 、 实 践 以 及 结论 提供 支持 图 1-9) 。 


人 力 资源 管理 实践 与 生 
产 率 、 流 动 率 、 事 故 数 


| 量 、 员 工 态度 、 医 疗 成 
a 本 之 间 关系 的 数据 
2 基于 事实 的 合理 决策 


滑 左 往 浇 寺 盖 症 着 


图 1-9 循 证 式 人 力 资源 管理 
循 证 式 人 力 资源 管理 区 别 于 传统 人 力 资源 管理 ( 表 1-2)， 它 是 指 “ 运 用 数据 、 
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事实 、 分 析 方法 、 科 学 手段 、 有 针对 性 的 评价 及 准确 的 案例 研究 ， 来 对 人 力 资源 
管理 方面 的 建议 、 决 策 、 实 践 以 及 结论 提供 支持 。 简 而 言 之 ， 循 证 式 人 力 资源 管 
理 就 是 审慎 地 将 最 佳 证 据 运用 到 人 力 资源 管理 实践 的 过 程 ”。 从 本 质 上 说 ， 循 证 
式 人 力 资源 管理 是 用 可 获得 的 最 佳 证 据 来 代替 个 人 经 验 和 盲目 的 模仿 ， 按 弃 “ 拍 
脑袋 决策 ”的 直觉 式 思维 ， 使 人 力 资源 决策 牢固 建立 在 实 实在 在 的 证 据 之 上 。 


表 1-2 传统 人 力 资源 管理 与 循 证 式 人 力 资源 管理 的 区 别 


传统 人 力 资源 管理 循 证 式 人 力 资源 管理 
很 少 有 确凿 证 据 证 明 人 力 资源 管理 的 附加 价值 | 例 行 提供 人 力 资源 价值 的 证 据 


人 力 资源 数据 和 分 析 并 没有 推动 实际 行动 人 力 资 源 数据 和 分 析 引 发 具有 战略 意义 的 行动 


人 力 资源 部 门 在 人 力 资源 管理 中 不 经 常 利 用 循 | 人 力 资 源 管理 部 门 经 常 要 去 并 使 用 循 证 分 析 

证 分 析 进 行 变 革 引导 组 织 的 战略 变革 

人 力 资源 的 作用 在 于 评价 各 部 门 的 运行 过 程 和 | 人 力 资源 的 作用 在 于 提供 如 何 获得 战略 成 功 
的 独到 见解 


人 力 资源 管理 的 循 证 式 变革 产生 “数据 决策 力 ”， 即 基于 数据 进行 科学 决策 
并 产生 价值 的 能 力 。 在 某 种 意义 上 说 ， 能 和 否 提高 自身 循 证 决策 的 能 力 ， 决 定 着 人 
力 资源 管理 的 前 景 。 这 里 所 说 的 证 据 (Evidence) ， 可 以 源 自 科 学 研究 ， 也 可 以 
源 自 诸如 结构 化 面试 等 管理 行为 中 的 个 案 讨 论 ， 但 最 主要 的 是 能 有 定性 和 定量 的 
数据 ， 有 明确 的 逻辑 框架 做 支撑 。 


4. 循 证 式 人 力 资源 管理 的 路 径 


(1) 获取 、 使 用 最 佳 研究 证 据 。 经 过 同行 评议 或 同行 审查 的 质量 最 好 的 实 
证 研究 结果 ; 区 分 哪些 证 据 可 用 ， 以 及 如 何 使 用 。 

(2) 了 解 实际 情况 ， 掌 握 事实 数据 。 将 人 力 资源 判断 和 决策 建立 在 对 事实 
尽 可 能 全 面 和 准确 把 握 的 基础 上 ， 可 能 同时 涉及 软 性 因素 和 硬性 因素 。 

(3) 专业 人 员 科 学 思考 、 判 断 。 有 助 于 减少 偏差 ， 提 高 决策 质量 ;借助 一 
些 经 过 论证 和 实际 使 用 效果 很 好 的 决策 框架 或 决策 路 径 。 

(4) 考虑 对 利益 相关 者 的 影响 。 必 须 考虑 伦理 道德 因素 ， 权 衡 对 利益 相关 
者 可 能 产生 的 长 期 和 短期 影响 。 


5. 循 证 式 变革 是 人 力 资源 管理 的 未 来 趋势 
循 证 式 变革 并 不 是 简单 的 “用 数据 说 话 ”。 而 是 在 综合 逻辑 、 战 略 意识 和 变 
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革 管 理 的 背景 下 了 解 循 证 式 变革 如 何 成 为 未 来 人 力 资源 管理 的 主导 模式 。 循 证 式 
变革 的 模式 拓展 了 数据 收集 和 分 析 的 范畴 。 利 用 循 证 式 变革 的 五 大 原则 可 以 推动 
组 织 在 数据 收集 和 分 析 方 面 上 一 个 新 台阶 ， 进 而 确保 人 力 资 源 管理 能 为 组 织 变革 
提供 切实 有 效 的 战略 影响 。 一 旦 循 证 式 变革 应 用 于 人 力 资 源 管理 ， 由 此 产生 的 变 
革 将 对 组 织 的 影响 更 加 深远 、 更 具有 可 持续 性 。 作 为 人 力 资 源 管 理 未 来 趋势 的 循 
证 式 变革 遵循 以 下 五 个 原则 。® 

第 一 个 原则 ， 逻 辑 驱 动 的 分 析 模 式 (图 1-10) 。 

一 直 以 来 ， 人 力 资源 管理 部 门 无 法 证 明 自 己 的 价值 ， 这 限制 了 人 力 资源 部 门 
对 组 织 内 部 关键 决策 者 的 影响 力 ， 使 其 他 人 无 法 正确 看 待人 才 对 组 织 战略 成 功 的 
重要 作用 。 目 前 ， 不 再 是 数据 缺乏 ， 而 是 信息 爆炸 。 员 工 离职 率 、 薪 资 成 本 、 人 
才 结 构 、 能 力 储备 、 员 工 满意 度 等 数据 较 易 获取 。 人 力 资源 管理 面临 的 不 是 数据 
缺乏 ， 而 是 如 何 有 效 利用 数据 ， 并 服务 于 组 织 发 展 。 


人 才 生 命 周期 (XX) 


经 半 上 (2 和 \ 
> 


1-10 ”逻辑 驱动 的 分 析 模 式 


对 于 HR 来 说 , 逻辑 驱动 分 析 模 式 的 关键 不 是 单纯 拥有 数据 或 简单 分 析 数 据 ， 
而 是 要 有 一 套 基 本 逻辑 引导 完成 数据 分 析 。 届 辑 是 引导 分 析 推 理 的 框架 和 背景 。 
比如 ， 员 工 流 失 是 典型 的 人 力 资源 指标 ， 员 工 流失 分 析 大 有 学 问 。 如 果 人 力 资源 


@ 约翰" 布 德 鲁 ， 瑞 文 。 杰 苏 萨 桑 . 变革 创造 价值 一 一 人 力 资源 循 证 式 管理 . 陈 丽 芳 ， 译 . 北京 : 
中 国电 力 出 版 社 .2012. 
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部 门 计算 员工 流失 的 成 本 ， 只 能 说 企业 开始 重视 这 个 问题 。 但 是 ， 如 果 人 力 资源 
部 门 确定 相关 的 逻辑 分 析 框 架 ， 界 定 什么 是 有 利 的 人 员 离 职 ， 什 么 是 不 利 的 人 员 
离职 ， 探 讨 如 何 根据 业务 需要 权衡 人 员 离 职 的 成 本 和 收益 ， 这 种 情况 下 ， 人 力 资 
源 部 门 才 是 有 价值 的 ， 因 为 这 一 逻辑 框架 使 人 员 流 失 从 简单 的 数字 转化 成 了 能 够 
引导 组 织 进行 正确 组 织 变革 的 证 据 。 

逻辑 分 析 的 第 二 个 方面 是 对 影响 最 大 、 最 紧急 的 问题 进行 分 析 。 盘 点 当前 人 
力 资源 状况 ， 发 现存 在 的 问题 ， 找 到 对 应 的 数据 进行 分 析 。 同 时 ， 需 要 建立 合 
的 沟通 机 制 , 向 组 织 内 非 人 力 资源 部 门 管理 者 正确 传达 信息 , 促 其 采取 正确 行动 ， 
而 不 要 用 统计 分 析 玩 人 力 资源 语言 的 数字 游戏 ， 要 明确 沟通 对 象 ， 有 独到 见解 。 

表 1-3 为 人 才 生命 周期 各 阶段 分 析 框 架 。 


表 1-3 ”人 才 生 命 周期 各 阶段 分 析 框 架 了 


人 才 选 拔 人 才 评 估 人 才 发 展 人 才 激 励 人 才 保 留 


衡量 、 数 据 分 析 和 规划 


销售 额 的 影响 


预测 | 减低 新 员工 首 年 | 高 绩效 员工 比例 | 增加 单 店 经 理 | 增加 薪酬 对 任 | 提升 员工 敬业 度 
(预测 分 | 流失 率 对 单位 面 | 增长 率 对 单位 面 | 数量 对 客户 和 | 职 成 本 回报 率 | 对 单位 面积 销售 
析 法 ) | 积 销售 额 的 影响 | 积 销售 额 的 影响 | 销售 额 的 影响 | 的 预计 影响 。 | 额 的 影响 


新 员工 敬业 度 ; 
门店 经 理 首 年 流 
失 率 ; 招聘 成 本 ; 
招聘 成 功率 


@ ( 美 ) 约 翰 * 布 德 鲁 , 瑞 文 * 杰 苏 萨 桑 . 变革 创造 价值 一 一 人 力 资源 循 证 式 管理 . 陈 丽 芳 , 译 . 北京 : 
中 国电 力 出 版 社 .2012. 
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逻辑 分 析 的 第 三 个 方面 是 使 用 逻辑 分 析 进 行 正确 决策 。 我 们 会 为 组 织 提供 各 
种 报告 ， 比 如 员工 流失 、 员 工 态 度 、 技 能 水 平等 ， 通 过 这 些 数 据 分 析 形 成 报告 ， 
以 支撑 各 项 业务 活动 。 我 们 发 现在 某 个 部 门 ， 某 类 员工 离职 率 比较 高 ， 或 者 在 某 
些 财务 指标 不 达标 的 部 门 内 ， 员 工 态 度 不 符合 该 部 门 全 国 范围 内 的 对 标 水 平 。 我 
们 制定 这 些 数 据 指标 ， 不 是 为 了 有 趣 ， 而 是 辅助 决策 。 循 证 式 人 力 资源 管理 的 逻 
辑 分 析 框 架 用 途 是 确定 哪些 数据 、 哪 些 方法 对 于 解决 组 织 当 前 面临 的 问题 最 为 重 
要 。 这 就 要 求人 力 资源 分 析 师 必须 擅长 分 析 战 略 和 商业 问题 ， 理 解 如 何 把 人 力 资 
源 和 这 些 问题 联系 起 来 。HR 需要 具备 理解 商业 罗 辑 的 能 力 ， 认 清和 利用 何 种 数 
据 能 提升 决策 能 力 、 能 对 企业 的 运营 效果 产生 更 为 积极 的 影响 。 

举例 来 说 ， 假 设 根据 商业 罗 辑 分 析 ， 将 产品 卖 给 现 有 的 顾客 群体 比 开发 新 的 
客户 更 有 意义 。 根 据 这 个 思维 ， 人 力 资源 数据 分 析 的 首要 目标 是 反映 企业 决策 者 
的 目标 。HR 提供 的 数据 只 显示 员工 积极 性 提高 与 销售 额 增加 之 间 的 关系 还 不 够 ， 
关键 要 说 明 员工 的 积极 性 与 现 有 顾客 群体 的 销售 额 之 间 的 关系 。HR 就 需要 思考 
以 下 问题 : 

什么 样 的 员工 态度 能 够 提高 对 现 有 顾客 的 销售 额 ? 

哪些 人 力 资源 项 目 可 以 提升 员工 的 这 种 态度 ? 

这 些 相关 数据 和 分 析 就 会 有 说 服 力 ， 对 于 关键 的 决策 很 重要 。 

因而 ， 遵 循 这 一 商业 逻辑 ，HR 需要 做 好 以 下 工作 : 

数据 统计 。 保 证 员工 的 所 有 数据 都 有 据 可 查 ， 整 理 好 ， 并 能 随时 查阅 。 

职能 的 数据 统计 。 从 描述 性 的 数据 中 进行 推断 ， 通 过 预测 趋势 和 部 门 对 标 得 
出 一 些 见 解 。 

洞察 。 理 解 这 些 现象 、 数 据 和 部 门 差异 背后 的 原因 。 

影响 。 利 用 分 析 的 结果 来 实现 有 价值 的 切实 变化 。 比 如 ， 人 力 资源 可 以 
对 全 部 数据 进行 个 性 化 说 明 ， 从 而 引起 CEO 的 注意 ， 表 现 优秀 的 UI (User 
Interface) 设计 总 监 之 所 以 离开 ， 是 因为 他 们 在 原来 的 岗位 上 提升 的 空间 不 大 。 

循 证 式 变革 的 第 二 个 原则 是 指 通过 明确 在 员工 和 潜在 员工 之 间 的 本 质 区 别 ， 
确定 实施 人 才 战 略 分 类 的 标准 。 一 是 需求 层面 ， 根 据 组 织 对 员工 的 需求 和 期 望 ; 
二 是 供应 层面 ， 按 照 组 织 吸引 、 激 励 员 工 的 措施 开展 ; 三 是 确定 特征 和 差异 ， 确 
定 不 同 员工 群体 的 特征 和 差异 ， 能 让 组 织 有 的 放 矢 地 设计 、 制 定 人 才 管 理 战略 。 

其 他 三 个 原则 分 别 是 合理 利用 风险 、 整 合 和 协同 增 效 、 优 化 人 力 资源 管理 和 投资 。 
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中 国人 民 大 学 彭 剑 锋 教 授 指 出 ， 没 有 成 功 企 业 ， 只 有 时 代 企业 ， 企 业 只 有 适 
应 时 代 要 求 ， 不 断 自我 变革 与 创新 ， 才 能 基业 长 青 。 而 企业 最 难 、 最 深层 次 的 变 
革 是 组 织 与 人 的 变革 。 组 织 是 人 的 连接 与 集合 ， 人 是 主角 ， 组 织 始终 围绕 人 来 定 
义 能 力 与 价值 , 围绕 人 与 组 织 关系 的 重 构 来 提升 组 织 效 率 与 价值 创造 活力 。 因 此 ， 
在 质变 与 不 确定 的 时 代 ， 我 们 需要 敏锐 感知 影响 组 织 与 人 变革 的 因素 ， 洞 见 组 织 
变革 的 趋势 ， 创 新 组 织 与 人 的 定义 与 思维 ， 使 组 织 有 前 途 ， 工 作 有 效率 ， 人 才 有 
活力 。? 通过 对 实践 案例 的 研究 ， 及 对 生态 组 织 特征 的 感知 ， 认 为 组 织 的 变革 有 
十 大 趋势 。 

(1) 组 织 的 结构 从 金字 塔 式 、 科 层 组 织 到 扁平 化 、 网 络 化 组 织 。 

(2) 企业 的 生产 组 织 方式 从 集中 化 、 规模 化 、 标 准 化 转向 平台 化 下 的 分 布 式 、 
微 化 、 创 客 化 组 织 方式 。 

(3) 组 织 边界 被 打破 ， 组 织 的 破 界 与 跨 界 将 成 为 一 种 组 织 变革 时 尚 。 

(4) 组 织 的 合作 与 协同 从 部 门 化 到 团队 化 ， 从 中 央 协 同 到 平行 分 布 协同 。 

(5) 组 织 的 驱动 机 制 从 来 自 上 级 威权 指令 式 驱动 转向 愿景 与 数据 驱动 。 

传统 组 织 的 内 在 驱动 机 制 主要 是 权力 驱动 、 威 权 指令 式 驱动 ， 现 在 叫 愿景 与 
大 数据 驱动 。 组 织 要 激发 人 才 价值 ， 创 造 活力 ， 驱 动员 工 创造 价值 ， 不 再 依靠 简 
单 的 指令 、 单 一 严格 的 制度 约束 和 标准 化 的 行为 规范 来 驱动 员工 ， 而 是 通过 文化 
价值 观 管理 ， 依 靠 人 才 对 组 织 使 命 与 愿景 的 认同 ， 使 千 军 万 马 朝 着 一 个 共同 的 目 
标 而 奋斗 。 通 过 唤醒 人 才 自 我 开发 与 自我 管理 意识 ， 激 发 员工 价值 创造 潜能 ， 使 
人 才 从 要 我 干 转向 我 要 干 ， 我 们 一 起 干 。 同 时 ， 用 户 数 据 将 成 为 企业 核心 资产 ， 
用 户 数 据 流向 决定 产品 与 业务 流向 ， 并 成 为 决策 与 业务 运行 的 依据 ， 得 数据 者 得 
天 下 ! 企业 不 再 是 简单 按照 威权 的 命令 式 指挥 员工 去 做 什么 、 怎 么 做 ， 而 是 为 员 
工 确 定好 未 来 的 发 展 愿景 ， 让 人 才 凝 聚 在 共同 愿景 之 下 ， 力 出 一 孔 ， 同 时 利用 大 
数据 驱动 企业 决策 和 业务 的 运行 。 从 这 个 角度 来 讲 ， 未 来 组 织 的 驱动 机 制 叫做 愿 
景 驱动 和 大 数据 驱动 。 

(6) 组 织 的 管控 监督 机 制 从 刚性 管控 走向 柔性 引导 。 


外 彭 剑 锋 . 生态 组 织 的 10 大 特征 与 人 力 资源 管理 的 10 大 思维 . 华夏 基石 e 洞察 ，2016. 
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(7) 组 织 的 特征 从 静态 到 动态 ， 从 封闭 到 开放 。 

(8) 组 织 沟通 与 氛围 从 面对面 沟通 到 网 络 化 沟通 。 

(9) 组 织 对 环境 的 适应 性 将 从 被 动 走向 主动 ， 从 竞争 到 共生 共 赢 。 

(10) 组 织 与 人 的 关系 重 构 ， 从 人 是 工具 到 人 是 目的 。 

未 来 ， 组 织 的 边界 打破 主要 围绕 四 个 主题 进行 : 一 是 围绕 用 户 打破 组 织 内 外 
边界 ,形成 重 构 客户 价值 的 产业 生态 圈 , 价值 不 仅 来 源 于 企业 内 部 价值 链 的 活动 ， 
而 且 来 自 企 业 与 产业 边界 之 外 的 客户 、 合 作 伙 伴 等 所 构成 的 生态 圈 ， 只 有 产业 生 
态 才能 为 用 户 造像 ， 才 能 让 用 户 有 极致 的 体验 ;二 是 围绕 员工 打破 领导 与 被 领导 
的 边界 , 人 人 都 是 CEO , 都 是 创 客 三 是 围绕 组 织 扁平 化 与 网 络 化 , 打破 科 层 边界 ， 
不 断 细 分 业绩 单元 ， 不 断 将 经 营 责任 落实 到 个 人 和 小 团队 ， 推 倒 决 策 墙 ， 汇 报关 
系 多 元 化 ， 项 目 任务 蜂窝 化 ， 四 是 围绕 组 织 氛 围 ， 打 破 沟 通 边界 ， 实 现 零 距离 、 
无 边界 的 即时 沟通 。 


和 | 阿里 巴巴 的 生态 组 织 


延伸 阅读 
阿里 巴巴 集团 人 力 资源 副 总 裁 常 扬 提 道 ， 阿 里 巴巴 要 做 生态 环境 。 四 


我 们 说 阿里 巴巴 要 做 生态 环境 ， 因 此 ， 阿 里 巴巴 必须 朝 更 生态 
化 的 组 织 形态 转变 。 所 谓 更 生态 化 的 组 织 形态 ， 就 是 自 上 而 下 的 管 
理会 减少 ， 而 横向 之 间 的 主动 连接 会 更 多 ， 基 于 兴趣 、 靠 任务 结合 
起 来 的 项 目 和 自 组 织 的 业务 会 越 来 越 多 ， 这 跟 原 来 金字 塔 结构 的 组 
织 形态 大 不 一 样 。 

要 做 成 生态 化 的 组 织 形态 ， 需 要 有 哪些 条 件 ? 

1. 信息 和 数据 

这 群 人 一 定 要 比 老板 拥有 更 多 的 信息 和 数据 才能 做 成 事 儿 ， 如 
果 信 息 不 能 平等 化 、 透 明 化 ， 是 形成 不 了 自 组 织 的 。 所 以 ， 阿 里 有 
云 盘 ， 可 以 在 上 面 搜索 各 种 信息 。 

做 得 最 好 的 是 阿里 内 外 ， 这 是 一 个 类 似 微 博 的 系统 。 比 如 ， 点 
开 我 的 名 字 ， 别 人 就 可 以 看 到 我 的 简历 ， 看 到 我 可 以 进 哪些 业务 系 
统 ， 我 掌握 哪些 资源 ， 我 原来 做 过 什么 事情 ， 我 的 KPI 是 什么 ， 别 人 


外 常 扬 , 李 传 涛 .什么 是 生态 化 的 组 织 形态 . 创业 家 .2013 年 09 期 . 
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给 我 做 的 项 目的 反馈 是 什么 。 如 果 我 是 一 个 产品 经 理 ， 还 能 看 到 我 
做 过 的 产品 的 客服 量 ， 信 息 会 越 来 越 透明 。 现 在 ， 阿 里 大 多 数 周 报 
也 不 再 通过 邮件 发 送 ， 就 是 在 阿里 内 外 发 布 ， 然 后 @ 你 一 下 ， 你 就 
能 收 到 。 我 们 也 建 了 很 多 群 ， 可 以 在 群 里 分 享 信息 ， 这 些 数据 今天 
不 一 定 有 用 ， 但 是 有 一 天 也 许 会 用 到 。 所 以 ， 数 据 与 搜索 是 两 个 特 
别 重要 的 东西 。 

2. 组 织 管理 的 流程 

项 目 制 的 组 织 里 ， 流 程 要 可 配置 ， 而 且 是 插件 式 的 。 要 做 一 个 
项 目 ， 从 流程 包 里 面 找 些 流程 ， 插 一 下 、 配 一 下 ， 就 变 成 这 个 项 目 
可 以 遵循 的 流程 。 

3. 价值 观 

越 是 这 种 项 目 制 、 自 组 织 的 管理 方式 ， 大 家 所 遵循 的 目标 应 该 
越 接 近 。 所 以 ， 阿 里 的 价值 观 非常 重要 ， 它 保证 了 自 组 织 状态 下 ， 大 
家 朝 着 一 个 状态 去 做 。 客 户 第 一 永远 是 我 们 的 目标 ， 但 是 组 织 里 的 人 
越 来 越 多 ， 你 怎么 能 保证 大 家 追求 的 目标 一 致 ?9 就 要 靠 价值 观 。 

4. 如 何 奖励 

原来 的 奖励 方法 是 自 上 而 下 ， 老 板 定 奖 励 金 额 ， 但 是 在 自 组 
织 里 ， 老 板 并 不 完全 了 解 你 的 表现 ， 所 以 我 们 开发 了 一 个 模块 叫 阿 
里 互 评 。 比 如 ， 我 们 正在 开会 ， 你 可 以 用 手机 上 互 评 ， 给 我 一 个 
“ 赞 ”， 或 者 给 我 一 个 “不 喜欢 ”。 等 到 年 底 做 绩效 的 时 候 ， 就 算 
老板 天 天 看 不 到 你 ， 也 知道 你 的 工作 状况 。 在 自 组 织 的 状态 里 ， 最 
重要 的 就 是 怎么 获取 足够 的 信息 ， 把 信息 积累 下 来 ， 去 做 奖励 与 惩 
罚 。 因 此 ， 信息、 流程 、 奖 励 和 文化 价值 观 ， 是 阿里 未 来 做 生态 系 
统 特别 重要 的 四 点 。 

阿里 巴巴 是 从 一 个 非常 确定 的 世界 走向 一 个 网 状 、 不 确定 的 
世界 。 外 部 看 ， 去 年 我 们 在 淘宝 开 过 一 个 三 天 的 会 ， 开 会 前 淘宝 的 
CEO 三 丰 ( 姜 鹏 ) 说 ， 我 特别 想 开 过 三 天 会 后 ， 能 知道 淘宝 三 年 之 
后 在 干什么 ? 开 完 会 后 ， 我 问 三 丰 时 ， 三 丰 说 ， 现 在 我 只 知道 : 我 
不 知道 淘宝 三 年 之 后 在 干什么 。 内 部 看 ， 阿 里 正 从 原来 的 金字 塔 结 
构 变 成 一 个 更 生态 型 的 组 织 。 未 来 ， 我 们 不 知道 还 是 否 需要 现在 所 
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谓 的 关键 领导 岗位 ， 起 码 从 现在 看 还 是 需要 的 。 但 由 于 组 织 越 来 越 
靠 横向 连接 ， 去 年 战略 部 的 曾 鸣 教授 说 ， 所 谓 的 中 层 管理 者 ( M1、 
M2 ) 会 很 快 消失 。 从 经 理 管 理 专业 人 员 到 专业 人 员 去 带 项 目 ， 这 是 
一 个 我 们 非常 相信 ， 而 且 正在 发 生 的 事情 。 

传统 自 上 而 下 的 组 织 形 式 ， 它 的 特点 是 控制 、 命 令 ， 管 理工 具 
是 做 计划 、 预 算 。 今 后 会 慢 慢 变 成 靠 激发 、 鼓 励 、 指 明 方向 、 自 下 
而 上 这 种 方式 ， 从 所 谓 的 整合 资源 变 为 资源 聚合 。 


资源 聚合 方面 ， 阿 里 哪个 部 门 如 果 缺 人 ， 我 们 很 少 搞 集 团 统一 调配 ， 你 有 本 
事 自己 去 说 服 别人 愿意 跟 你 干 ， 这 叫 聚合 资源 。 就 像 一 个 个 风 火 轮 ， 你 的 能 力 足 
够 大 ， 你 就 会 吸引 更 多 的 能 力 、 资 源 ， 这 是 一 种 市 场 的 力量 ， 也 是 一 种 生态 系统 
的 力量 。 资 源 会 被 什么 吸引 ? 你 做 的 项 目 是 不 是 有 意义 、 别 人 对 这 件 事 会 不 会 感 
兴趣 ， 而 不 是 行政 命令 。 


EO 


延伸 阅读 


生态 组 织 是 “雨林 ”， 而 不 是 “农场 ”” 


农场 和 雨林 的 区 别 : 一 个 长 庄稼 ， 一 个 长 野草 ， 因 而 ， 生 态 组 
织 是 “雨林 ”， 而 不 是 “农场 ”。 

发 源 于 工业 革命 的 商业 模式 可 以 从 多 个 方面 被 刻画 成 “农业 ” 
模型 ， 这 种 模型 专注 于 控制 复杂 系统 ， 利 用 最 新 工具 来 细致 地 调整 
准确 度 、 精 密度 与 生产 率 。 控 制程 度 越 高 ， 产 出 就 会 越 高 。 公 司 会 
因为 生产 的 高 效率 而 得 到 回报 ， 这 一 点 非常 像 农 民 为 了 提高 土地 亩 
产量 而 采用 最 好 的 肥料 、 农 药 与 耕种 方法 。 你 可 以 在 脑海 中 想象 一 
下 纺织 工人 们 在 一 排 排 纺 织 机 前 的 工作 画面 ， 或 者 是 汽车 工厂 的 装 
配 线 ， 装 配 线 运 转 得 越 快 ， 你 就 可 以 赚 更 多 的 钱 。 产 品质 量 越 可 
靠 ， 就 会 有 更 多 的 客户 来 不 停 购买 产品 。 

本 质 上 ， 雨 林 发 挥 作 用 的 原因 不 在 于 原始 的 碳 、 和 气 、 氨 、 氧 原 
子 的 单一 存在 ， 它 能 够 繁荣 兴旺 的 原因 主要 在 于 把 这 些 元 素 融 合 在 
一 起 从 而 创造 出 全 新 且 不 可 预料 的 动 植物 群 。 雨 林 是 一 个 具有 独特 


@ 维 克 多 。W. 黄 , 格雷 格 * 霍 洛 维 茨 .硅谷 生态 圈 一 一 创新 的 雨林 法 则 .诸葛 越 , 许 斌 , 林 翔 , 志 鹏 ， 
王 霞 ， 译 . 北京: 机 械 工业 出 版 社 .2015. 
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品质 的 环境 ， 空 气 、 土 壤 中 的 营养 素 、 温 度 都 有 可 能 催生 出 新 的 动 
植物 物种 ， 远 远大 于 这 些 元 素 的 总 和 。 雨 林 把 无 生命 的 无 机 物 创造 
成 为 欣欣 向 荣 的 有 机 物 系统 。 

1. 雨林 一 一 设计 与 构造 出 适当 的 环境 来 激发 创造 力 

自然 界 的 雨林 不 会 预先 决定 有 价值 的 新 物种 的 进化 过 程 ， 但 是 
会 提供 恰当 的 环境 来 培育 偶然 发 现 的 进化 过 程 。 在 雨林 中 ， 最 有 前 
途 的 生命 形态 以 一 种 不 可 预测 的 方式 出 现在 非常 富饶 的 环境 中 。 当 
我 们 想起 创新 系统 ， 不 应 该 只 是 推动 单一 创新 的 存在 ， 而 是 应 该 设 
计 与 构造 出 适当 的 环境 来 激发 创新 的 产生 与 繁荣 。 

2. 商业 模式 = 农业 模型 

在 人 类 创造 和 追求 商业 价值 的 方式 中 ，“ 农 业 ” 模 型 已 经 根 
深 带 固 。 让 我 们 想 想 现实 中 的 商人 是 如 何 操 作 的 ， 在 “农业 ”模型 
中 ， 地 里 的 野草 往往 会 被 拔 掉 ， 如 果 地 里 种 的 是 玉米 ， 那 么 所 有 的 
蒲公英 都 会 被 铲除 。 通 常 ， 那 些 不 按照 事先 确定 的 详细 规范 来 组 装 
汽车 的 古怪 雇员 都 会 被 解雇 。 然 而 ， 在 雨林 中 ， 一 棵 像 野草 的 植株 
极 有 可 能 是 整个 生态 环境 中 最 有 价值 的 新 植物 。 

像 谷歌 与 脸谱 网 这 样 的 公司 ， 很 多 年 以 前 ， 它 们 与 野草 无 异 ! 
那些 古怪 的 人 实际 上 是 创新 系统 中 的 规则 改变 者 。 在 雨林 中 ， 我 们 
就 是 要 鼓励 野草 生长 。 

热带 雨林 公理 : 作物 在 农场 中 极 大 丰收 之 时 ， 乃 野草 在 热带 雨林 
最 佳 萌芽 之 际 。 

3. 雨林 的 本 质 

什么 是 雨林 ? 在 生物 学 中 ， 一 个 自然 的 生态 系统 是 由 一 个 群落 
的 生物 体 相互 作用 及 与 环境 的 作用 所 构成 的 。 雨 林 则 是 人 类 的 生态 
系统 ， 人 的 创造 力 、 商 业 智慧 、 科 学 发 现 、 投 资 资 金 以 及 其 他 元 素 
以 某 种 特别 的 方式 结合 在 一 起 ， 培 养 萌发 出 新 想法 ， 并 苗 壮 成 长 为 
可 持续 发 展 的 企业 ( 图 1-11 ) 。 
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创意 与 发 
政府 
贸易 与 工业 组 织 


教育 与 劳动 力 发 展 


房地产 与 商业 基础 进入 全 球 市 场 
与 供应 链 
文化 、 社 会 价值 、 新 闻 与 媒体 网 络 
模型 、 法 律 规范 


1-11 可 持续 发 展 的 企业 


海尔 集团 首席 执行 官 张瑞敏 在 沃 顿 商学 院 全 球 论坛 发 表演 讲 ， 以 海尔 自身 的 
转型 试 错 为 样本 ， 探 讨 互联 网 时 代 的 商业 模式 创新 。 他 指出 ， 所 谓 成 功 的 企业 ， 
是 因为 踏 准 了 时 代 的 节拍 ， 但 是 不 可 能 永远 踏 准 时 代 的 节拍 ， 因 为 我 们 是 人 ， 不 
是 神 。 企 业 就 像 冲 浪 者 ， 今 天 冲 上 这 个 浪 尖 ， 并 不 能 保证 明天 还 在 浪 兴 上 。? 

未 来 已 来 ， 科 技 带 来 的 变化 正 以 无 法 察觉 的 脚步 向 我 们 步 步 紧 逼 。 大 数据 、 人 工 
智能 、 移 动 社交 等 “ 黑 科 技 ” 正 在 影响 着 人 们 的 日 常生 活 ， 商 业 环 境 也 在 随 之 发 生 巨 
大 变革 。 正 如 互联 网 公司 强调 的 “敏捷 开发 ， 快 速 和 迭代 ”， 在 今天 风云 多 变 的 市 场 环 
境 下 ，“ 快 ”显得 尤为 重要 ， 传 统 、 腑 肿 的 科 层 式 组 织 在 沟通 效率 、 决 策 效率 上 受到 
巨大 挑战 ， 企 业 需 要 如 何 重 构 组 织 设计 ， 以 激发 人 体力 量 ， 适 应 变化 ， 培 育 创新 ? 

大 数据 与 人 工 智 能 快速 发 展 ，AlphaGo 已 经 战胜 了 人 类 。 未 来 ， 科 技 会 将 我 
们 的 生活 带 向 何方 ? 技术 与 人 性 的 边界 又 在 哪里 ? 在 人 力 资源 领域 ， 我 们 切实 看 
到 近 几 年 来 ， 科 技 带 来 的 变革 。 比 如 人 工 智 能 用 于 招聘 、 培 训 等 环节 中 ， 将 HR 
从 耗 时 耗 力 的 基础 工作 中 解脱 出 来 。 透 过 一 系列 员工 行为 大 数据 分 析 ， 预 测 员工 
的 离职 倾向 与 满意 度 ， 让 HR 更 有 效 地 使 用 干预 措施 ， 为 组 织 减少 损失 。 技 术 还 
在 进步 ， 应 用 仍 在 拓展 ， 科 技 已 经 是 推动 人 力 资 源 管理 变革 的 关键 。 

正如 马克 思 所 说 : “一 种 科学 只 有 成 功 地 运用 数学 的 时 候 ， 才 能 达到 真正 完 
善 的 地 步 。 ”AI 时代 下 ， 大 数据 将 会 给 战略 转型 中 的 人 力 资源 管理 带 来 什么 样 
的 变革 ? 国内 以 三 大 BAT 公司 为 首 的 企业 正在 尝试 着 在 人 才 的 “ 选 、 育 、 用 、 留 ” 
方面 以 大 数据 技术 提升 组 织 效率 。 


人 @ 张瑞敏 .没有 成 功 的 企业 只 有 时 代 的 企业 .21CN 财经 .http://finance.21cn.com/newsdoc/zx/ 
a/2014/0619/09/27494808.shtml. 


26 | 人 力 资源 大 数据 应 用 实践 


延伸 阅读 | 


| 数字 化 时 代 ， 领 先 的 组 织 是 如 何 利用 信息 技术 促进 人 力 资源 管 
| 理 的 转型 与 发 展 ， 并 创造 业务 价值 的 ? 

这 一 次 ,我 们 用 数据 说 话 。 怡 安 翰 威 特此 前 就 上 述 话题 在 亚太 
地 区 展开 了 “HR Transformation Survey” ( 人 力 资 源 转 型 调研 ) ， 
得 到 了 广泛 参与 一 一 最 终 ， 参 与 调研 企业 768 家 ， 代 表 员 工 数 650 
万 ， 营 业 收 入 总 计 75000 亿 美元 。 参 与 调研 人 群 中 ， 其 中 45% 是 
CHRO。 本 次 调研 主要 有 以 下 几 大 发 现 : 

1. 人 力 资源 服务 的 重要 性 取得 共识 ， 但 仍 需 后 发 之 力 。 


80% 的 
业 计 


: 已 


提升 HR 在 职 人 员 的 胜任 力 整合 人 力 管理 流程 利用 科技 以 更 好 支撑 人 才 管 理 
图 1-12 人 力 资源 服务 的 重要 性 


2. 人 力 资 源 的 重要 性 凸显 ， 但 能 力 有 待 提升 


CN 
re> 


4SUB>、 63% 的 受 访 者 
名 汇报 给 全 球 总 部 HR 
p> 说 明 有 较 强 的 资源 部 署 能 力 


®@®® 


人 事 专员 
| HR Generalist > 
在 众多 的 HR 角色 中 
人 事 专 员 (HR Generalist) 职责 相对 不 明晰 
HR 在 职 人 员 的 能 力 需要 提升 
93% 的 企业 计划 
在 接 下 来 一 到 两 年 里 提升 HR 的 能 力 


图 1-13 人 力 资源 的 重要 性 凸显 ， 能 力 有 待 提升 


外 ” 怡 安 翰 威 特 微 信 公众 号 . 一 张 图 了 解 人 力 资源 转型 调研 结果 . 2017-06-29. 
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3. 三 支柱 模型 中 三 角色 能 力 缺 口 

表 1-4 HR 三 支柱 模型 中 三 角色 能 力 缺 口 

专家 领域 (COE ) 

。 | 开发 创造 性 
战略 性 思维 50 % | 管理 /促进 变革 50% 解决 方案 38 % 
共享 服务 中 心 ( SSC ) 
事务 管理 40% 技术 应 用 能 力 34%| 分 析 导向 30 % 促进 变革 22 % | 创建 信任 关系 21% 
人 力 资源 业务 合作 伙伴 ( HRBP ) 


与 业务 联动 65 %| 促进 变革 48 % | 战略 思维 48 % | 业务 敏锐 度 41 %| 影响 领导 层 43 % 


4. 人 力 资源 运营 模式 趋 于 成 熟 ， 但 仍 在 转型 中 


影响 领导 层 38 %| 业务 敏锐 度 30 % 


不 到 1/3 的 组 织 拥有 
清楚 明确 的 人 力 资源 服务 交付 模式 
其 中 45% 拥 有 共享 服务 中 心 


4 1 1 1 


人 力 资源 共享 服务 将 拓展 到 


拥有 共享 服务 的 组 织 中 人 才 管理 
约 50% 的 事务 通过 | 有 望 进 一 步 整合 行政 性 事务 
共享 服务 完成 一 一 如 绩效 、 学 习 和 发 展 


图 1-14 转型 中 的 人 力 资源 运营 模式 
5. 人 力 资源 技术 期 望 过 高 ， 但 交付 滞后 


| 时 越 来 越 看 重 
用 户 体验 可 配置 性 分 析 功 能 创新 速度 


云 产 品 在 市 场 上 的 期 望 过 高 ， 但 评分 不 高 ， 是 销售 误导 所 致 
图 1-15 组 织 选择 平台 时 看 重 的 功能 
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6. 2019 年 将 迎 来 HR 转型 的 引爆 点 

CHRO 认 为 届时 将 会 实现 100% 的 员工 经 理 自助 服务 ; 100% 的 
HR 流程 移动 化 ; 50% 的 视频 化 学 习 ; 70% 的 人 才 决 策 由 伙伴 驱 
动 ; 50% 的 绩效 管理 由 AI 驱动 ; 80% 的 员工 反馈 能 够 进行 实时 收 
集 和 汇报 。 


ne 


一 了 


人 力 资源 大 数据 特点 及 竞争 优势 ) 


美国 谷歌 与 脸谱 公司 使 用 大 数据 改变 了 游戏 规则 。 当 它们 面 对 较 少 用 户 时 ， 
储存 对 它们 有 用 的 数据 ， 不 是 一 件 困难 的 事 。 但 是 当面 对 超过 10 亿 的 好 友 ，!1 
万 亿 的 网 页 搜索 ， 就 不 得 不 创建 新 的 技术 ， 来 储存 、 分 析 激 增 的 数据 。 它 们 是 想 
通过 数据 分 析 ， 来 找到 客户 的 需求 ， 提 高 其 产品 的 销量 。 万 事 总 有 领军 者 。 其 他 
公司 见 状 ， 起 而 效仿 ， 于 是 ， 大 数据 风 生 水 起 。 

2012 年 被 认为 是 大 数据 元 年 ， 如 今 已 经 是 进入 大 数据 时 代 的 第 5 个 年 头 。 
回 望 这 5 年 的 历史 ， 不 由 得 感叹 大 数据 不 仅 影响 了 我 们 生活 的 方方面面 ， 而 且 重 
塑 着 人 类 认识 世界 和 理解 世界 的 方式 。 


大 数据 是 什么 


1. 起 源 : 大 数据 的 前 世 今生 


在 五 六 年 前 ， 大 数据 的 概念 刚刚 被 提出 来 的 时 候 ， 很 少 有 人 意识 的 到 这 一 波 
新 的 科技 浪潮 将 奏 响 新 时 代 的 序章 。5 年 来 ， 大 数据 的 发 展 和 创新 迅 如 雷霆 ， 大 
数据 的 应 用 如 水 银 泻 地 般 的 影响 着 各 个 产业 。 大 数据 科技 的 发 展 速度 超越 了 前 面 
任何 一 次 科技 革命 ， 因 为 这 一 切 发 生得 太 迅速 ， 很 多 人 会 感觉 到 大 数据 似乎 是 一 
夜 之 间 从 天 而 降 。 正 如 杨万里 在 《新 竹 》 中 描写 的 一 样 :， “东风 弄 巧 补 残 山 ， 一 
夜 吹 添 玉 数 笔 。” 春 天 的 新 竹 看 似 一 夜 长 成 ， 其 实在 破土 而 出 之 前 有 着 长 时 间 的 
酝酿 与 积累 才 有 后 来 的 厚积薄发 ， 大 数据 也 是 如 此 。 
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要 和 弄 清 楚 大 数据 的 来 龙 去 脉 , 必 先 了 解 工 行业 的 发 展 史 。 要 谈 IT 行 业 发 展 史 ， 
就 不 能 不 说 摩尔 定律 。 戈 登 。 摩尔 (Gordon Moore) 在 1965 年 提出 了 摩尔 定律 : 
在 价格 不 变 的 条 件 下 ， 每 隔 18 ~ 24 个 月 ， 集 成 电路 可 容纳 的 元 件数 量 可 增加 1 
倍 ， 即 集成 电路 的 性 能 增加 1 倍 ， 因 此 计算 机 的 性 能 也 将 增加 1 倍 。 摩 尔 定 律 揭 
示 了 IT 行业 发 展 的 速度 : 计算 机 的 性 能 相对 于 时 间 呈 指数 增长 。 直 到 今天 摩尔 
定律 所 描述 的 规律 仍然 相当 准确 。 对 大 众 来 说 最 直观 的 感受 就 是 我 们 的 计算 机 体 
积 越 来 越 小 了 ， 但 是 计算 能 力 却 越 来 越 强大 。20 世纪 90 年 代 ， 计 算 机 在 中 国 逐 
渐 开始 普及 ， 其 间 经 历 了 从 台式 机 到 笔记 本 电脑 再 到 智能 手机 的 过 程 。 在 台式 机 
的 时 代 我 们 很 难 想象 有 一 天 我 们 能 够 把 计算 机 放 进 衣服 口袋 ， 如 今 计 算 机 不 仅 能 
够 小 到 装 进口 袋 ， 而 且 还 能 和 手表 甚至 眼镜 融 为 一 体 〈 其 实 计 算 机 还 可 以 变 得 更 
小 ， 只 是 更 小 的 显示 装置 就 不 方便 人 类 使 用 了 ) ， 更 重要 的 是 今天 的 智能 手机 不 
仅仅 是 体积 变 小 了 ， 而 且 性 能 也 已 经 远 远 超过 了 当年 的 台式 机 。 

计算 机 性 能 的 增加 带 来 的 是 数据 分 析 、 处 理 、 存 储 和 传播 速度 的 加 快 ， 与 此 
同时 ， 计 算 机 产品 的 价格 在 不 断 下 降 ， 使 越 来 越 多 的 人 能 够 使 用 计算 机 ， 计 算 机 
使 用 者 数量 的 增加 引发 了 数据 量 的 不 断 增加 。 简 单 来 说 ， 更 强 的 计算 能 力 意味 着 
更 快 的 数据 处 理 能 力 ， 更 便宜 的 计算 机 带 来 的 是 更 快 的 数据 生成 速度 ， 因 此 摩尔 
定律 本 质 上 阐明 了 数据 处 理 能 力 和 数据 产生 速度 同步 增长 的 必然 性 。 

摩尔 定律 从 本 质 上 说 明了 随 着 时 间 的 推移 ， 计 算 机 的 计算 能 力作 为 一 种 资源 
成 本 将 越 来 越 低 ， 与 此 同时 ， 计 算 需 求 变 得 越 来 越 大 ， 直 到 达到 当时 计算 能 力 的 
上 限 。 这 样 的 一 个 正 反馈 回路 推动 了 从 系统 软件 到 应 用 软件 ， 再 到 互联 网 ， 然 后 
到 移动 互联 的 每 一 次 飞跃 。 互 联网 特别 是 移动 互联 普及 之 后 ， 数 据 的 产生 呈 爆 发 
式 的 增长 ， 实 现 了 由 量变 到 质变 的 飞跃 ， 最 终 大 数据 时 代 到 来 了 。 


2. 应 对 : 新 时 代 的 大 融 治 水 


数据 量 的 爆发 也 带 来 了 数据 存储 、 数 据 传输 和 数据 分 析 等 方面 的 问题 ，IT 
行业 有 句 话 对 此 进行 描述 : Computers have promised us a fountain of wisdom but 
delieved a flood of data.( 计 算 机 承诺 带 给 我 们 智慧 的 清泉 ， 但 事实 上 送 来 的 是 数 
据 的 洪流 。) 

在 2012 年 ， 每 天 产生 的 数据 就 已 经 达到 2.5Exabytes。 当 前 我 们 个 人 电脑 的 
硬盘 容量 通常 在 Gigabyte 和 Terabyte 之 间 ， 如 果 把 这 些 电脑 的 硬盘 容量 都 算 作 
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1 Terabyte。2.5Exabytes 的 数据 会 装 满 250 万 台电 脑 的 硬盘 。 而 且 数 据 产生 的 速 
度 还 在 不 断 加 快 ， 大 约 每 两 年 数据 量 都 会 翻番 。 由 此 看 来 ， 把 大 数据 时 代 的 数据 
量 比喻 成 洪流 甚至 是 海洋 毫 不 为 过 。 

1024 Bytes = 1 Kilobyte 

1024 Kilobytes = 1 Megabyte 

1024 Megabytes = 1 Gigabyte 

1024 Gigabytes = 1Terabyte 

1024 Terabytes = 1 Petabyte 

1024 Petabytes = 1 Exabyte 

1024 Exabytes = 1 Zettabyte 

1024 Zettabytes = 1 Yottabyte 

1024 Yottabytes = 1 Brontobyte 

1024 Brontobytes = 1 Geopbyte 

在 大 数据 时 代 的 今天 ， 我 们 每 人 每 天 、 每 时 每 刻 都 被 数据 所 包围 ， 新 闻 、 社 
交 媒 体 、 移 动 应 用 等 让 人 应 接 不 暇 。 每 个 人 的 生活 已 经 因此 产生 了 深刻 的 变化 。 
如 何 面 对 这 样 的 数据 洪流 ， 不 同 的 人 有 不 同 的 态度 。 有 的 人 拥抱 、 有 的 人 激动 、 
有 的 人 质疑 、 有 的 人 排斥 ， 可 谓 众生 百 态 。 

大 禹 治水 的 故事 或 许可 以 给 我 们 以 启迪 。 据 《山海 经 》 和 《史记 》 等 记载 ， 
艺 在 位 时 中 原 地 区 洪水 泛滥 ， 无 边 无 际 ， 于 是 任命 了 钱 去 治理 水 患 。 钱 采用 封 堵 
的 策略 来 治理 水 患 。 稣 治水 失败 由 他 的 儿子 融 继 续 治理 水 串 。 融 采用 了 疏导 的 策 
略 ， 而 且 一 共 历 时 了 13 年 时 间 ， 其 间 三 过 家 门 而 不 入 ， 最 终 取得 了 成 功 。 在 大 
数据 时 代 ， 我 们 应 该 学 习 和 借鉴 大 一 治水 的 精神 和 方法 来 面 对 数 据 洪 流 。 通 过 研 
究 和 发 现 大 数据 的 规律 和 逻辑 来 为 人 类 造福 。 


3. 意义 : 淘 尽 黄 沙 始 见 金 


从 大 数据 诞生 以 来 ， 随 着 人 们 对 大 数据 的 认识 不 断 的 加 深 ， 大 数据 的 内 涵 和 
外 延 一 直 在 发 生 着 变化 。IBM 对 大 数据 特征 的 4V 描述 被 业界 广泛 认同 。 如 今 这 
一 理论 已 经 发 展 成 为 5V， 分 别 是 Volume、Velocity、Variety、Veracity、Value。 

Volume (大 量 ) : 用 来 描述 大 数据 的 数据 量 巨 大 ， 这 是 大 数据 区 别 于 传统 数 
据 的 首要 特征 。 世 界 上 现 有 的 90% 的 数据 是 在 过 去 两 年 中 产生 的 。 大 数据 的 大 
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首先 是 数据 规模 的 大 。 

Velocity (高速) : 用 来 描述 大 数据 的 数据 产生 和 传播 的 高 速 ， 而 且 这 个 速 
度 还 在 不 断 加 快 。 

Variety〈 多 样 ) : 大 数据 包括 多 样 化 的 数据 格式 与 形态 。 大 部 分 的 数据 是 非 
结构 化 的 ， 包 括 : 文本 、 音 频 和 视频 等 格式 ， 而 且 还 不 断 地 有 新 的 数据 格式 产生 。 

Veractiy (精确 性 ) : 对 数据 质量 进行 描述 ， 大 数据 所 包含 数据 的 数据 质量 
通常 参差 不 齐 ， 为 数据 分 析 的 精确 性 造成 了 困难 ， 很 多 传统 的 数据 处 理 方 法 已 经 
不 再 有 效 。 

Value《〈 价 值 ) : 对 大 数据 进行 科学 的 数据 挖掘 分 析 可 以 发 现 其 中 包含 的 深 
度 价 值 。 

前 四 个 V (Volume，Velocity，Variety，Veracity) 描述 的 是 大 数据 的 客观 属性 ， 
而 最 后 一 个 V (Value〉 是 我 们 利用 大 数据 的 目的 和 意义 所 在 。 我 们 可 以 看 到 大 
数据 的 前 四 个 属性 和 其 变化 的 趋势 都 在 为 我 们 从 大 数据 中 获得 价值 增加 难度 : 在 
浩如烟海 和 形态 多 样 的 数据 中 获得 价值 的 确 是 困难 重重 ， 因 此 利用 和 研究 大 数据 
需要 科学 的 方法 和 工具 。 

从 大 数据 中 发 现价 值 就 如 同 炼金 术 一 样 ， 是 一 个 除去 杂质 并 且 层 层 提 纯 的 过 
程 ， 这 个 过 程 通常 被 称 为 知识 发 现 KDD (Knowledge Discovery in Databases) 。 
具体 来 说 ， 这 一 过 程 的 产物 从 数据 到 信息 ， 再 到 知识 ， 最 后 到 达 智 慧 。 数 据 
信息 知识 智慧 是 一 个 金字 塔 结构 。 这 一 结构 被 称 为 DIKW (Data-Information- 
Knowleddge-Wisdom) ， 由 Jeniffer Rowly 在 2007 年 提出 (图 1-16) 。 


洞察 力 创造 力 


提炼 的 信息 


有 组 织 的 数据 


事实 和 数字 


1-16 ”DIKW 金字 塔 结构 
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金字 塔 的 底座 最 大 ， 这 一 层 是 数据 。 数 据 〈Data) 在 拉丁 文中 的 原意 是 事实 
和 已 知 。 数 据 是 一 种 原始 的 记录 ,没有 经 过 加 工 和 解释 ， 反 映 了 事物 的 客观 状态 ， 
数据 之 间 是 分 散 和 孤立 的 ， 没 有 建立 相互 的 联系 。 这 些 数据 就 包括 我 们 朋友 图 的 
数据 、 公 共 交 通 的 数据 、 网 上 电 商 的 数据 等 ( 表 1-5) 。 
表 1-5 ”商品 销售 数据 


商品 ID | 商品 名 称 | ”数量 价格 销售 时 间 顾客 ID | 交易 ID 
6754432 牛奶 1 9.98 “| 2016-05-01 14:32:00 | 26545 | 1561334 


这 条 数据 就 是 一 条 普通 的 销售 记录 ， 内 容 包括 了 商品 ID、 商 品名 称 、 商 品 
数量 、 价 格 和 销售 时 间 等 。 如 果 是 在 拥有 销售 软件 系统 的 超市 ， 或 者 是 在 网 上 的 
电 商 ， 每 当 一 个 交易 完成 的 时 候 ， 类 似 于 图 中 的 一 条 交易 数据 就 会 被 记录 在 数据 
库 中 。 这 样 的 数据 ， 每 时 每 刻 都 在 以 巨大 的 体 量 产生 。 

对 数据 进行 系统 组 织 、 整 理 和 分 析 之 后 得 到 信息 ， 信 息 具 有 明确 的 目的 性 和 
使 用 性 , 能 够 回答 “ 谁 ”"Who)、“ 什 么 ”What)、“ 地 点 ”Where) 和 “时 间 ”(When) 
等 问题 。 信 息 是 数据 上 面 一 层 ， 来 源 于 数据 并 高 于 数据 ， 信 息 把 特定 的 孤立 的 数 
据 联系 了 起 来 ， 数 据 和 信息 都 是 客观 存在 。 

数据 和 信息 上 面 是 知识 层 。 知 识 体现 了 信息 的 本 质 、 原 则 和 经 验 ， 能 够 积极 
地 指导 任务 的 执行 与 管理 , 进行 决策 和 解决 问题 。 从 数据 到 信息 再 到 知识 的 过 程 ， 
是 一 个 数据 不 断 变 得 有 序 、 不 断 得 到 验证 , 并 最 终 揭示 所 存在 的 固有 规律 的 过 程 。 

智慧 是 金字 塔 的 最 高 一 层 。 智 慧 是 基于 知识 的 基础 上 ， 形 成 的 对 事物 的 深刻 
认识 和 远见 ， 体 现 为 一 种 卓越 的 判断 力 ， 并 由 此 采取 策略 和 行动 。 智 慧 是 人 类 区 
别 于 其 他 生物 和 人 工 智能 的 重要 特征 (至 少 目前 是 如 此 ) 。 知 识 和 智慧 都 包含 了 
智能 的 主观 意识 。 对 于 人 工 智能 后 面 的 章节 将 做 更 加 详细 的 介绍 。 

DIWK 金字 塔 结构 清晰 地 阐明 了 数据 分 析 的 结果 ,或 者 说 是 产 出 (Output) ， 
如 果 从 分 析 的 功能 和 目的 来 划分 ， 现 有 大 数据 数据 分 析 包 括 描述 性 分 析 
(Descriptive) 、 预 测 性 分 析 (Predictive) 和 处 方 性 分 析 (Prescriptive) ， 这 三 
个 层次 的 分 析 是 与 DIWK 过 程 相对 应 的 。 

描述 性 分 析 包括 了 数据 和 信息 层 ， 是 对 客观 事实 进行 描述 ， 分 析 的 结果 要 能 
够 回答 “ 谁 ”(Who) 、“ 什 么 ”(What) 、“ 地 点 ”(Where) 和 “时 间 ” (When) 
这 一 层面 的 问题 。 

预测 性 分 析 主 要 是 在 知识 层面 。 预 测 性 分 析 运 用 统计 、 建 模 和 数据 挖掘 等 技 
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巧 ， 通 过 分 析 现 有 和 历史 数据 来 发 现 规律 并 对 未 来 进行 预测 。 分 析 结 果 要 能 回答 
“如 何 ” (How) 或 者 “为 什么 ” (Why) 层面 的 问题 。 

处 方 性 分 析 是 在 智慧 层面 ， 通 过 描述 性 分 析 和 预测 性 分 析 积 累 的 经 验 来 提供 
建议 和 问题 的 解决 方案 。 处 方 性 能 够 提供 决策 选项 ， 整 个 分 析 过 程 需 要 考虑 和 涉 
及 问题 的 背景 、 商 业 规则 、 计 算 机 建 模 和 算法 等 。 

这 一 数据 分 析 流 程 被 广泛 地 应 用 在 商业 智能 (Business Intelligence) 和 决策 
支持 系统 (Decision Support System) 中 。 

至 此 ， 读 者 对 于 大 数据 应 该 有 了 一 个 直观 的 认识 。 大 数据 其 实 是 一 种 现象 ， 
但 是 这 一 现象 背后 有 着 深刻 的 内 涵 。 接 下 来 ， 我 们 将 抽 丝 剥 昔 透 过 现象 去 发 掘 背 
后 的 本 质 。 


4. 本 质 : 洞察 ” 


“大 数据 ”顾名思义 就 是 “规模 海量 的 数据 ”。 其 实 这 是 似是而非 的 认 知 。 
大 数据 具有 数量 巨大 、 构 成 复杂 、 变 化 迅速 、 价 值 内 隐 的 特征 。 学 习 与 掌握 它 ， 
能 够 通过 多 维度 、 多 层次 的 数据 ， 以 及 历时 态 的 关联 数据 ， 找 到 问题 症结 ， 直 抵 
事实 真相 ， 从 而 使 其 利用 者 达到 智慧 化 的 境界 。 从 哲学 高 度 看 ， 大 数据 是 数据 由 
量变 达到 质变 的 结果 。 人 徐 子 沛 《大 数据 》 里 是 这 么 界定 数据 的 ， 数 据 是 对 客观 世 
界 的 测量 和 记录 。 传 统 的 数据 是 测量 ， 比 如 测量 气温 把 它 变 成 数据 。 今 天 的 数据 
爆炸 不 是 测量 数据 的 爆炸 ， 是 记录 世界 的 爆炸 。 所 有 可 以 电子 化 的 东西 都 可 叫做 
数据 ， 所 有 的 事情 都 在 数据 化 ， 数 据 的 外 部 性 使 阿里 巴巴 变 成 一 家 金融 公司 。 数 
据 不 在 于 大 ， 而 在 于 多 源 。 数 据 之 所 以 有 用 ， 是 因为 数据 的 作用 能 够 超出 其 最 初 
收集 者 的 目的 。 

(1) 洞察 工作 重点 。 众 所 周知 ， 任 何 大 城市 都 有 不 少 井盖 。 有 自来水 、 煤 
气 、 污 水 地 下 管线 等 8 大 类 20 种 之 多 。 美 国 纽约 市 就 有 大 量 的 井盖 ， 但 是 作为 
管理 部 门 , 现在 , 每 天 只 要 打开 50 个 井盖 就 可 以 保证 城市 平安 运行 了 。 为 什么 ? 
原来 他 们 对 每 个 井盖 都 安装 了 感应 器 , 实时 汇聚 各 方 信息 , 掌握 了 重要 信息 情报 。 
通过 自动 筛选 ， 就 可 以 掌握 工作 中 的 重点 所 在 。 

(2) 洞察 未 来 趋势 。2008 年 ， 谷 歌 的 一 支 研 发 团队 利用 网 上 收集 来 的 个 人 


外 王 通 讯 .天 安 门 大 数据 思维 与 决策 


34 | 人 力 资源 大 数据 应 用 实践 


搜索 词汇 的 海量 数据 ， 赶 在 流行 病 专 家 之 前 两 个 星期 ， 提 前 预测 到 甲 型 HIN1 流 
感 即将 爆发 。 因 为 他 们 掌握 了 大 数据 ， 所 以 ， 这 样 难 办 的 事情 谷歌 就 做 到 了 ， 而 
且 比 专业 机 构 还 要 提前 ， 还 要 准确 。 如 果 要 知道 一 个 城市 的 堵车 高 峰 ， 可 以 通过 
早晨 的 用 水 高 峰 与 傍晚 的 用 电 高峰 而 推算 出 来 。 

(3) 洞察 客户 需求 。 现 在 的 电子 商务 非常 火爆 。 他 们 掌握 了 大 量 商品 订单 ， 
而 且 知道 好 的 生产 三家 是 谁 。 由 于 数据 在 握 ， 所 以 主动 在 握 。 很 多 生产 厂家 都 要 
恭维 着 电 商 。 长 此 以 往 , 会 形成 “ 反 客 为 主 ” 之 势 。 电 商 将 会 变 成 最 牛 的 生产 公司 。 

(4) 洞察 员工 表现 。 国 外 高 科技 企业 要 员工 做 “工作 日 志 ”， 就 是 把 你 一 
天 的 工作 用 计算 机 记录 下 来 。 例 如 ， 你 是 几 点 上 班 下 班 的 ， 你 在 计算 机 旁 学 习 了 
几 个 小 时 ? 你 的 学 习 进 度 如 何 ? 你 问 了 教练 几 个 问题 ? 这 些 数据 都 可 以 记录 下 
来 ， 形 成 你 的 “勤奋 镜像 ”水 晶 玻 璃 球 ) ; 再 加 上 你 最 近 与 客户 联系 过 多 少 次 ， 
客户 对 你 的 反映 如 何等 。 这 不 仅 能 够 知道 员工 的 真实 表现 ， 而 且 可 以 提前 干预 ， 
避免 绩效 下 降 。 

(5) 洞察 客户 诚信 。 众 所 周知 ， 银 行 利润 的 一 个 重要 来 源 就 是 贷款 。 但 是 ， 
贷款 有 风险 ， 最 大 的 风险 就 是 届时 还 不 回来 。 因 此 ， 中 央 一 再 要 求 要 帮助 中 小 企 
业 解 决 贷款 困难 ， 实 际 上 谁 都 知道 为 什么 总 解决 不 了 这 个 问题 。 问 题 就 卡 在 银行 
无 法 知道 哪 家 企业 到 底 经 营 状 况 如 何 。 连 报表 都 真 假 难 辨 。 现 在 ， 有 的 银行 开始 
与 大 数据 联合 , 与 电 商 联手 。 通 过 第 三 方 电 商 获取 的 大 数据 ， 提 升 了 贷款 准确 性 ， 
避免 了 赔本 风险 。 例 如 建行 的 “ 亦 商 亦 融 ”。 

《6 ) 洞 察 合适 人 选 。 利 用 大 数据 找 人 , 已 经 有 成 熟 方法 。 各 行 各 业 都 可 以 做 到 。 
现在 国外 已 经 开始 通过 大 数据 挑选 电视 剧本 的 合适 演员 。 整 个 过 程 有 观众 、 影 视 
粉丝 参与 ， 而 且 可 以 预测 票房 价值 。 


5. 特点 : 相关 性 、 混 杂 性 、 大 


(1) 不 重 因 果 性 , 重视 相关 性 。 大 数据 有 一 个 重要 特点 , 就 是 “不 讲 为 什么 ， 
重视 关联 性 ”。 如 果 发 现 了 某 种 关联 性 。 就 可 以 加 以 利用 。 和 凭借 自 有 的 卫星 信息 
系统 进行 商品 管理 的 沃尔玛 公司 ， 发 现在 它们 的 卖场 里 ， 凡 是 购买 婴儿 尿布 的 顾 
客 ， 很 多 都 要 买 上 几 饶 啤酒 。 这 是 为 什么 ? 不 知道 。 但 是 ， 掌 握 了 这 种 关联 性 的 
卖场 经 理 ， 就 可 以 告诉 上 架 员 ， 要 把 灌 装 啤酒 与 婴儿 尿布 摆 放 在 一 起 。 这 么 做 ， 
果然 提升 了 这 两 种 商品 的 销售 量 。 再 比如 ， 凡 购买 救灾 用 具 的 人 ， 一 般 都 要 购买 
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蛋 捧 等 食品 ， 这 是 可 以 想到 的 。 

(2) 不 求 精确 化 , 容忍 混杂 性 。 世界 上 结构 化 的 、 适 用 于 传统 数据 库 的 数据 ， 
大 约 只 占 5%, 95% 的 数据 是 非 结构 化 的 。 因此 , 要 利用 大 数据 就 要 容忍 其 复杂 性 ， 
包括 格式 的 不 一 致 性 等 。 虽 然 我 们 得 到 的 信息 那么 精确 ， 但 是 数量 庞大 的 信息 使 
我 们 放弃 严格 精确 的 选择 变 得 更 为 划算 。 大 数据 通常 是 靠 概 率 说 话 的 。 所 以 ， 为 
了 掌握 发 展 趋势 ， 应 该 学 会 对 精确 性 做 一 些 让 步 。 

(3) 不 搞 随 机 抽样 ， 要 全 部 数据 。 社 会 科学 研究 常用 “抽样 调查 ”方法 。 
它 曾经 被 认为 是 社会 文明 得 以 建立 的 牢固 基石 ， 直 到 现在 也 在 经 常 使 用 。 其 实 ， 
它 只 是 在 技术 受到 限制 的 特定 条 件 下 ， 解 决 特定 问题 的 一 种 无 奈 方法 。 

现在 , 已 经 可 以 收集 到 过 去 无 法 收集 到 的 大 量 信息 , 所 以 “样本 就 等 于 全 部 ”。 
而 且 这 样 做 ， 比 使 用 抽样 调查 方法 得 出 的 结论 要 准确 的 多 。 在 大 数据 时 代 ， 还 搞 
抽样 调查 ， 就 好 像 生 在 汽车 时 代 ， 却 非 要 骑马 赶路 一 样 。 


6. 大 数据 不 是 简单 的 BI 升级 


BI (Business Intelligence) 即 商 务 智 能 ， 它 是 一 套 完整 的 解决 方案 ， 用 来 将 
企业 中 现 有 的 数据 进行 有 效 的 整合 ， 快 速 准确 地 提供 报表 并 提出 决策 依据 ， 帮 助 
企业 做 出 明智 的 业务 经 营 决策 。 

大 数据 (Big Data) 是 指 在 可 承受 的 时 间 范 围 内 用 常规 软件 工具 进行 捕捉 、 
管理 和 处 理 的 数据 集合 ， 是 需要 新 处 理 模式 才能 具有 更 强 的 决策 力 、 洞 察 发 现 力 
和 流程 优化 能 力 来 适应 海量 、 高 增长 率 和 多 样 化 的 信息 资产 。 

不 管 定 义 如 何不 同 ， 大 数据 与 传统 BI 是 社会 发 展 到 不 同 阶段 的 产物 ， 大 数 
据 对 于 传统 BI， 既 有 继承 ， 也 有 发 展 。 从 “ 道 ” 的 角度 讲 ，BI 与 大 数据 区 别 在 
于 前 者 更 倾向 于 决策 ， 对 事实 描述 更 多 是 基于 群体 共性 ， 帮 助 决策 者 掌握 宏观 统 
计 趋 势 ， 适 合 经 营运 车 指标 支撑 类 问题 。 大 数据 则 内 涵 更 广 ， 倾 向 于 刻画 个 体 ， 
更 多 的 在 于 个 性 化 的 决策 。 

大 数据 应 用 场景 是 企业 特别 需要 想 清楚 的 地 方 ， 传 统 BI 失败 ， 一 定 程度 
讲 ， 是 技术 推动 业务 导致 的 倒挂 现象 所 致 ， 也 是 高 估 传 统 BI 利用 数据 的 能 力 所 
致 ， 比 如 大 量 领 域 用 传统 BI 产生 不 了 生产 力 。 大 数据 也 面临 这 个 重大 问题 ， 但 


@@ 傅 一 平 .大 数据 为 什么 不 是 简单 的 BI 升级 .http://www.36dsj.conyarchives/59858. 
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应 该 看 到 ， 随 着 大 数据 概念 的 普及 ， 应 用 领域 的 大 幅 延 伸 ， 企 业 的 管理 和 业务 
人 员 对 于 数据 的 认识 有 了 很 大 的 转变 ， 数 据 化 的 思维 开始 深入 人 心 ， 对 于 大 数 
据 来 说 ， 是 一 个 新 的 机 会 。 当 前 大 数据 领域 最 火 的 地 方 是 颠覆 BI， 打 造 大 数据 
技术 引擎 。 很 多 企业 纷纷 在 建设 自己 的 大 数据 平台 ， 不 外 乎 解决 以 下 问题 ， 比 
如 用 Hadoop、 流 处 理 等 技术 解决 海量 的 结构 化 、 非 结构 化 数据 的 ETL 问题 ， 用 
Hadoop、MPP 等 技术 计算 海量 数据 的 计算 问题 ， 用 redis、HBASE 等 方式 解决 高 
效 读 的 问题 ， 用 Impala 等 技术 实现 在 线 分 析 等 问题 。 


大 数据 思维 与 决策 


大 数据 时 代 ， 一 切 相 连 。 人 人 相连 ， 物 物 相连 ， 人 物 相连 ， 实 虚 相 连 ， 虚 虚 
相连 。 大 数据 最 早 的 传播 者 徐 子 沛 说 ， 阿 里 巴巴 的 “ 杀 钉 ”把 短信 、 微 信 、 电 话 
融会 贯通 到 一 起 ， 界 面 与 微 信 很 相似 。 发 一 条 短信 给 朋友 ，“ 钉 钉 ” 会 记录 朋友 
是 看 了 还 是 没 看 。 他 看 了 之 后 ， 没 有 采取 行动 怎么 办 ? 就 可 以 “ 钉 ” 他 一 下 : 把 
这 条 短信 以 电话 形式 打 到 他 手机 上 ， 接 通电 话 ， 信 息 以 语言 形式 播放 出 来 ， 确 保 
他 听 到 。 这 就 叫 “ 钉 ”， 而 且 是 免费 的 。 

1. 什么 是 大 数据 思维 

大 数据 思维 属于 信息 化 思维 的 一 个 新 阶段 ， 就 是 具有 大 数据 特征 的 思维 。 具 
体 而 言 ， 它 包含 了 以 下 三 个 重要 特征 。 

(1) 定量 性 。 认 为 一 切 均 可 测 ， 故 能 描述 ; 

(2) 相关 性 。 认 为 一 切 皆 可 连 ， 故 能 预测 ; 

(3) 实验 性 。 认 为 一 切 皆 可 试 ， 故 能 开拓 。 

在 大 数据 时 代 ， 我 们 的 思维 与 决策 都 应 该 摆脱 工业 化 阶段 的 某 些 特征 ， 而 跃 
升 到 一 个 更 高 境界 。 


2. 大 数据 思维 的 命名 
《世界 上 最 伟大 的 50 种 思维 方法 》 中 讲 到 的 思维 方法 包括 : 了 


外 龙 迷 .世界 上 最 伟大 的 50 种 思维 方法 . 北京 : 金城 出 版 社 .2011. 
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逻辑 思维 、 发 散 思维 、 收 敛 思 维 、 系 统 思维 、 立 体 思维 、 极 限 思维 、 超 前 思 
维 、 形 象 思维 、 横 向 思维 、 反 向 思维 ; 

加 法 思维 、 减 法 思维 、 换 位 思维 、 移 植 思维 、 分 解 思维 、 质 疑 思维 、 换 轨 思 
维 、 超 脱 思维 、 动 态 思维 ; 

光明 思维 、 黑 瞳 思维 、 底 线 思维 、 糊 涂 思 维 、 积 极 思维 、 简 单 思维 、 灵 感 思 
维 ; 左 脑 思维 、 右 脑 思维 、 囚 徒 思维 、 上 帝 思 维 ; 

哥伦布 思维 、 奥 卡 姆 思维 、 司 马 光 思维 、 拿 破 仑 思维 、 亚 历 山 大 思维 、 爱 迪 
生 思维 ， 裁 颖 思维、 木匠 思维 。 

相 比 较 而 言 ， 大 数据 思维 是 以 上 林林总总 思维 所 不 能 包含 的 一 种 新 的 思维 形 
态 。 故 ， 值 得 特别 关注 。 


3. 对 大 数据 思维 的 解读 


大 数据 思维 从 以 经 典 力学 为 背景 走向 以 量子 力学 为 背景 。 经 典 力学 时 代 强 调 
的 是 宏观 世界 、 低 速 、 线 性 、 低 链接 ; 量子 力学 时 代 强 调 的 是 微观 世界 、 高 速 、 
非 线性 、 强 链接 。 互 联网 与 大 数据 时 代 ， 出 现 了 许多 分 散 \ 混沌 不 确定 \ 粒 子 
化 现象 。 

大 数据 思维 是 要 求人 们 跟 上 时 代 变 化 的 最 现代 的 思维 方式 。 思 维 方式 是 指 人 
的 大 脑 活 动 的 内 在 特点 ， 包 括 方式 、 方 法 、 程 序 、 角 度 等 。 思 维 方式 对 人 的 行为 
方式 会 产生 直接 的 影响 。 思 维 方式 、 行 为 方式 的 产生 受到 环境 与 时 代 条 件 的 影响 
与 制约 , 它们 一 旦 形成 之 后 又 会 反 过 来 对 环境 与 时 代 产 生 影响 。 舍 恩 伯 格 说 : “所 
谓 大 数据 思维 ， 是 指 一 种 意识 ， 认 为 公开 的 数据 一 旦 处 理 得 当 ， 就 能 为 千 百 万 人 
急需 解决 的 问题 提供 答案 。” 由 此 可 知 ， 大 数据 思维 又 是 一 种 能 够 帮助 人 们 寻找 
答案 的 思维 。 

大 数据 思维 的 对 立 面 是 工业 化 思维 。 工 业 化 思维 是 指 工 业 化 阶段 产生 的 与 当 
时 生产 方式 相 适 应 的 思维 方式 。 例 如 ， 强 调 标准 化 、 规 模 化 、 规 范 化 等 。 工 业 化 
思维 ， 较 之 于 农业 社会 的 一 般 思 维 方式 无 疑 是 一 种 历史 的 进步 。 但 是 ， 当 我 们 国 
家 走 进 信息 社会 之 后 ， 又 显得 跟 不 上 形势 。 实 际 上 ， 我 国 当前 情况 比较 复杂 ， 既 
有 信息 社会 又 有 工业 社会 , 还 有 农业 社会 。 所 以 总 的 看 ， 处 在 一 种 混合 状态 之 下 。 
对 于 广大 农村 来 讲 ， 要 适应 工业 化 思维 、 大 数据 思维 才能 前 进 ， 对 于 城市 ， 特 别 
是 大 城市 来 讲 ， 必 须 适 应 信息 社会 的 思维 ， 例 如， 互联 网 思维 、 大 数据 思维 ， 才 
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能 不 断 发 展 自己 。 在 我 们 论述 大 数据 思维 的 时 候 ， 是 重 在 强调 “不 能 用 工业 思维 
阻碍 企业 与 产业 创新 ”。 


4. 大 数据 思维 的 特点 和 创新 


(1) 强调 “一 切 皆 可 量化 ” 

在 管理 学 上 有 一 个 说 法 ， 叫 作 “ 没 有 测量 就 没有 管理 ”。 此 言 极 对 。 可 以 试 
想 ， 如 果 不 能 把 目标 变 为 指标 ， 再 把 指标 转化 为 数据 ， 任 何 企业 管理 者 都 难以 把 
管理 落 到 实处 。 也 就 不 能 达到 管理 应 该 达到 的 目的 。 

大 数据 思维 强调 对 东西 和 事物 的 量化 ， 是 达到 管理 目的 的 利器 。 我 国 工业 化 
的 过 程 ， 就 是 精细 化 的 过 程 ， 就 是 量化 的 过 程 。 这 是 历史 发 展 的 必然 。 信 息 社会 
与 工业 社会 相 比 ， 量 化 的 对 象 大 大 增加 了 ， 颗 粒度 更 加 细微 了 。 

今天 ， 文字 、 图 人像、 声音、 视频 、 电 影 都 可 以 数据 化 。 我 们 周围 的 一 切 乃 至 
我 们 自己 都 可 以 用 数据 描述 。 有 个 新 词 非常 正确 、 非 常 到 位 ， 叫 “数据 化 生存 ”。 

(2) 强调 “数据 也 是 生产 要 素 ” 

在 我 们 以 往 的 职业 生涯 中 ， 一 般 人 都 知道 数据 比较 神秘 。 也 就 是 说 ， 不 少数 
据 是 只 有 领导 才能 掌握 的 ， 不 能 公开 。 至 于 它 的 用 途 何在 ， 就 是 填 表 时 候 用 的 。 

走 进 大 数据 时 代 ， 应 该 认识 到 ， 大 数据 是 一 种 生产 要 素 ， 将 它 公 布 于 社会 能 
够 创造 出 新 的 生产 力 ; 将 它 应 用 于 企业 生产 管理 系统 之 后 ， 可 以 创造 价值 ， 进 一 
步 提 高 企业 生产 与 服务 效益 。 将 它 应 用 于 更 为 广泛 的 社会 管理 领域 ， 可 以 创造 出 
巨大 的 社会 效益 与 经 济 效益 。 

比如 ， 大 型 超市 如 果 在 购物 车 上 安装 感应 器 ， 就 可 以 跟踪 客户 的 行进 路 线 ， 
发 现 客户 在 不 同 货架 前 面 的 停留 时 间 ， 以 及 拿 下 思考 、 实 际 购买 了 什么 物品 。 根 
据 长 期 积累 的 数据 ， 就 可 以 改进 超市 商品 摆 放 位 置 ， 以 获得 更 大 的 销售 量 。 同 理 ， 
可 以 告诉 生产 企业 ， 应 该 进行 哪些 改进 。 

美国 脸谱 公司 2014 年 通过 大 数据 分 析 之 后 发 布 精准 广告 ， 每 天 利润 达 822 
万 美元 ， 它 的 员工 是 8000 名 。 中 国 石油 公司 2014 年 每 天 利润 4585 万 美元 ， 它 
的 员工 是 150 万 名 。 可 以 看 出 ， 中 国 石油 利用 188 倍 的 员工 ， 产 出 了 比 脸谱 多 5 
倍 的 和 盈利。 


@ 段 云 峰 , 秦 晓 飞 . 大 数据 的 互联 网 思维 . 北京 : 电子 工业 出 版 社 . 2015- 
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(3) 强调 数据 的 完整 性 

大 数据 要 分 析 的 是 全 部 数据 ， 而 不 是 部 分 数据 。 因 为 现在 人 们 已 经 能 够 有 能 
力 和 办 法 ， 把 全 部 数据 收集 、 储 存 起 来 ， 进 行 有 目的 的 分 析 处 理 。 过 去 搞 社 会 科 
学 研究 ,往往 采用 抽样 调查 法 ,就 是 选择 样本 进行 分 析 ， 其 实 那 是 没 办 法 的 办 法 。 
现在 人 们 已 经 可 以 做 到 “样本 就 是 全 部 ”。 更 为 重要 的 是 ， 这 样 做 可 以 获得 更 加 
准确 的 结论 。 

一 位 统计 学 专家 说 ， 以 往 统 计 局 汇总 的 粮食 产量 总 是 不 准 ， 为 什么 ? 它 是 依 
靠 各 地 自行 上 报 的 。 目 的 不 同 ， 上 报 的 数据 各 异 。 现 在 利用 卫星 覆盖 ， 就 能 够 由 
计算 模型 得 知 某 种 粮食 作物 的 种 植 面积 与 产量 。 这 是 利用 了 大 数据 原理 统计 计算 
的 结果 。 

(4) 强调 数据 的 复杂 性 

小 数据 强调 数据 的 精确 性 ,大 数据 则 强调 数据 的 复杂 性 。 客 观 世 界 是 复杂 的 ， 
只 有 承认 客观 事物 的 复杂 性 才能 认 清和 把 握 这 个 世界 。 这 样 也 更 有 利于 了 解 事物 
的 真相 ， 避 免 因 忽 略 了 某 些 信息 而 造成 认 知 与 决策 的 失误 。 

什么 叫 大 数据 ? 从 多 个 源头 的 数据 去 互相 印证 一 个 事实 ， 这 就 是 大 。 数 据 收 
集 者 会 根据 自己 的 利益 去 收集 数据 ， 上 报 数据 ， 从 而 造成 统计 数据 不 实 。 但 是 ， 
今天 ， 阿 里 巴巴 的 平台 上 会 显示 哪个 地 区 的 尿布 销售 增长 情况 ， 这 就 可 得 知 二 胎 
到 底 是 在 哪里 出 生 。 如 果 再 加 上 奶粉 、 婴 儿 用 品 销售 数据 ， 形 成 “立体 数据 ”， 
那 判 断 就 更 加 准确 了 。 这 种 数据 的 复杂 性 ， 有 利于 呈现 客观 上 的 真实 性 。 

(5) 强调 事物 的 相关 性 

世界 万 物 的 一 个 基本 特点 就 是 相互 之 间 存 在 着 某 种 联系 ， 也 就 是 相关 性 。 但 
是 ， 人 们 往往 重视 它们 之 间 的 因果 性 ， 对 相关 性 忽视 了 。 比 如 ， 用 逻辑 推理 ， 就 
可 以 找到 事物 之 间 的 因果 关系 : 因为 掉 了 一 颗 铁 钉 ， 所 以 战马 突 失 前 蹄 ， 因 为 马 
失 前 蹄 ， 所 以 士兵 倒 地 ;因为 士兵 倒 地 ， 所 以 战争 失败 。 

但 是 ， 对 有 些 事物 之 间 的 相关 性 ， 人 们 就 不 大 容易 理解 了 。 大 数据 强调 ， 不 
要 等 我 们 了 解 了 事物 的 原因 ， 才 去 重视 它 , 而 要 尽快 利用 这 种 相关 性 ,创造 价值 。 

马云 讲 过 一 件 事 : 你 知道 全 国 哪个 省 、 市 、 自 治 区 的 人 喜欢 穿 比 基尼 吗 ? 一 
般 人 会 想到 东部 沿海 地 区 ， 实 际 上 错 了 。 最 喜欢 穿 比基尼 的 是 新 疆 人 ， 这 是 淘 
宝 销售 的 真实 数据 。 这 是 为 什么 ? 先 不 用 管 它 ， 你 就 冲 着 新 疆 人 吃喝 你 的 比 基 
尼 好 就 对 了 。 
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(6) 强调 发 现 事 物 规律 性 

世间 万 物 都 有 规律 。 有 时 人 们 感到 不 好 把 控 ， 难 以 描述 ， 那 是 观察 不 多 、 观 
察 不 够 的 问题 。 大 数据 思维 ， 重 视 从 多 方面 收集 信息 ， 多 角度 分 析 数 据 ， 就 比较 
容易 认识 到 隐藏 在 事物 背后 的 大 概率 现象 ， 即 规律 性 ， 因 此 值得 高 度 重 视 。 

从 这 样 的 意义 上 讲 ， 大 数据 思维 能 够 提升 人 们 对 于 事物 本 质 的 认 知 ， 以 利于 
更 好 地 认识 与 改造 世界 。 这 也 正 是 辩证 唯物 主义 者 所 追求 的 精神 境界 。 

例如 ， 对 于 举办 大 规模 集会 的 安全 保卫 工作 ， 就 可 以 收集 以 往 十 几 年 的 事件 
发 生 数 据 ， 把 握 事件 可 能 发 生 的 地 点 、 时 间 的 规律 性 ， 以 利 科 学 安排 警力 。 上 海 
陈 妆 广场 的 拥挤 致死 事件 ， 也 是 可 以 避免 的 。 现 在 ， 已 经 知道 室内 每 平方 米 0.85 
人 ， 室 外 每 平方 米 1 人 是 一 个 关键 数据 。 超 过 这 个 密度 ， 就 必须 中 止 入 口 进 人 。 


Sp 数据 可 以 说 明 过 去 ， 但 数据 也 可 以 驱动 现在 ， 数 据 更 可 以 决定 未 来 。 
延伸 阅读 一 一 王 文 京 ( 用 友 软 件 总 裁 ) 


缺少 数据 源 ， 无 以 谈 产 业 ; 缺少 数据 思维 ， 无 以 言 未 来 。 
一 一 赵 国标 ( 和 君 商学 院 ) 
我 们 必须 深刻 认识 到 ， 互 联网 + 什么 都 可 以 ， 但 互联 网 + 绝对 不 
能 加 传统 思维 。 
一 一 阿里 研究 院 
大 数据 思维 的 核心 是 什么 ? 
答 日 是 通过 数据 分 析 ， 找 到 价值 何在 。 
《大 数据 时 代 》 作 者 维克托 。 含 思 伯 格 说 : “在 大 数据 时 代 已 
经 到 来 的 时 候 ， 要 用 大 数据 思维 去 发 据 大 数据 的 潜在 价值 。” 
赵 大 伟 在 《互联 网 思维 》 中 进一步 说 ， 大 数据 的 价值 不 在 大 ， 
而 在 于 挖 气 。 挖 握 什 么 ? 挖 气 到 价值 。 对 于 商家 来 讲 ， 就 是 找到 
利润 ; 对 于 国家 来 讲 ， 就 是 提高 治理 能 力 和 治理 水 平 ; 对 于 自家 来 
说 ， 就 是 提高 对 于 客观 世界 的 认识 能 力 ， 更 好 地 生活 、 工 作 、 贡 献 ! 


5. 大 数据 思维 创新 案例 


(1) 利用 大 数据 思维 以 “虚拟 世界 ”建设 “物质 世界 ” 
养老 院 既 有 实体 型 的 ， 也 可 以 有 虚拟 型 的 。 虚 拟 的 养老 院 ， 即 在 计算 机 上 建 
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立 一 个 养老 大 数据 系统 ， 将 空 梨 、 孤 寡 老 人 的 健康 与 生活 需求 、 照 料 需求 等 动态 
数据 搜集 在 一 起 ， 此 为 需求 方 ， 再 将 志愿 者 、 义 工 等 供给 方 信息 搜集 在 一 起 ， 使 
得 双方 得 以 匹配 , 使 社会 资源 得 到 最 大 化 利用 。 虚拟 养老 院 的 服务 包括 诸多 方面 ; 
紧急 救助 、 生活 服务 、 老 人 社交 、 老人 关爱 。 现 实生 活 中 , 可 以 将 “ 线 上 ”与 “ 线 
下 ”结合 起 来 。 建 立 一 个 实体 服务 中 心 ， 可 以 打破 原 有 社区 实体 时 间 空 间 的 
限制 。 

(2) 利用 大 数据 思维 实现 数据 共享 

数据 可 以 自用 自 享 ， 也 可 以 与 其 他 组 织 共 享 共 获 益 。 一 家 著名 的 全 球 性 饮料 
企业 ， 将 外 部 合作 伙伴 的 天 气 信息 集成 ， 进 入 其 需求 与 存货 规划 流程 ， 通 过 分 析 
特定 日 子 的 “温度 、 降 水 、 日 照 时 间 ” 三 个 数据 点 ， 使 企业 减少 了 在 欧洲 一 个 关 
键 市 场 的 库存 。 同 时 ， 使 预测 准确 度 提高 大 约 5%。 

同 理 ， 批 发 市 场 如 果 能 够 获得 零售 商 的 零售 数据 ， 则 可 以 更 合理 地 安排 生产 
与 物流 。 

(3) 利用 大 数据 思维 促进 车 险 精 细 化 

目前 ， 北 京 的 车 险 费 用 基本 是 一 样 的 。 但 是 一 些 保险 公司 已 经 开始 应 用 UBI 
(基于 使 用 的 保险 ) 。 这 是 通过 “个 人 驾驶 行为 ”来 定义 个 人 保费 的 新 型 保险 产 
品 。 保 险 公 司 在 客户 车 辆 上 安装 一 个 小 型 车 载 远程 通信 设备 ， 就 能 够 搜集 到 该 汽 
车 在 驾驶 里 程 、 时 间 、 地 点 以 及 驾驶 速度 、 变 线 频次 、 刹 车 力度 等 方面 的 大 量 数 
据 。 而 后 对 这 些 数据 进行 分 析 。 通 过 计算 ， 评 估 出 这 个 客户 的 风险 指数 ， 由 此 制 
定 车 保费 用 。 

这 样 做， 技术 与 习惯 好 的 驾驶 员 得 到 保费 优惠 ， 差 的 则 要 缴纳 较 高 的 保费 。 
这 样 的 改革 是 大 数据 帮助 实现 的 ， 于 国 于 民 于 全 社会 都 有 利 。 

(4) 用 大 数据 思维 促进 行政 管理 机 制 改革 

在 我 们 国家 ， 航 空 公司 的 航班 晚点 属于 正常 ， 不 晚点 ， 属 于 不 正常 。 而 且 ， 
全 国人 民 谁 有 意见 也 没有 用 。 这 个 问题 怎么 解决 ? 现在 ， 一 时 还 真 没 有 办 法 。 

美国 航空 管制 机 构 采用 了 一 种 大 数据 方法 : 定期 公布 每 个 航空 公司 、 每 一 航 
班 班次 过 去 一 年 的 “晚点 率 ” 和 ”“ 平 均 晚 点 时 间 ”。 这 么 一 来 ， 由 于 客户 喜爱 
准时 的 航班 ， 购 买 机 票 时 就 会 自然 选择 准点 率 高 的 航班 。 这 叫 通过 市 场 手段 与 大 
数据 方法 促进 各 航空 公司 努力 提高 准点 率 。 这 个 简单 很 方法 ， 但 比 任何 管理 手 
段 都 有 效 。 
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6. 什么 是 大 数据 决策 


决策 就 是 领导 者 根据 实际 情况 对 事情 做 出 决定 性 意见 ， 又 叫 “ 拍 板 ”。 按 具 
体 情 况 不 同 ， 决 策 有 多 种 类 型 之 分 。 按 层次 分 ， 有 战略 、 战 役 与 战术 之 不 同 ; 按 
主体 分 ， 有 个 体 、 群 体 与 群众 之 不 同 ; 按 信息 掌握 程度 分 ， 有 确定 型 、 不 确定 型 
与 风险 型 决策 之 不 同 ， 按 可 否 用 数量 表示 分 ， 有 定量 与 定性 决策 之 不 同 ， 按 决策 
目标 多 少 分 ， 有 单 目标 与 多 目标 决策 之 不 同 。 

先 看 一 个 案例 : 阿里 巴巴 每 卖 一 样 东西 就 积累 下 一 条 数据 。 到 2000 年 ， 积 
累 了 大 量 数据 ， 并 发 现 它 可 以 做 很 多 事情 ， 比 如 人 金融。 它们 的 平台 上 有 很 多 卖家 
都 需要 贷款 ， 但 银行 不 贷 给 他 们 。 阿 里 巴巴 平台 数据 能 够 知道 这 些 卖家 的 经 营 情 
况 ， 比 如 卖 了 多 少 货物 ， 赚 了 多 少 钱 ， 经 营 是 否 稳定 。 于 是 ， 由 此 考虑 : 是 不 是 
可 以 据 此 决定 是 否 可 以 给 他 们 贷款 呢 ? 阿里 巴巴 开发 了 100 多 个 数据 模型 ，3 分 
钟 填报 贷款 需求 ，1 秒 钟 决定 给 不 给 贷款 。 这 里 没有 人 在 做 决定 ， 是 算法 在 决定 。 
他 们 已 经 给 100 多 万 商家 做 了 贷款 ， 而 且 比 传统 银行 效果 好 得 多 。 这 种 依靠 大 数 
据 而 非 任何 个 人 的 决策 ， 就 是 大 数据 决策 。 


7. 大 数据 决策 的 特点 


(1) 赁 数据 决策 ， 而 不 是 赁 感觉 决策 

中 国 古代 ， 从 皇帝 到 大 臣 都 普遍 缺少 数量 、 定 量 概念 。 皇 帝 听 取 大 臣 汇报 ， 
也 是 看 他 的 表情 、 样 子 、 说 话 的 声音 ， 甚 至 器 喊 的 嗓音 。 如 果 声 音 大 ， 那 就 是 重 
要 ， 就 需 发 兵 或 者 拨款 救济 。 因 为 中 国 太 大 ， 而 统计 、 汇 总 又 实在 太 难 了 。 这 样 
的 决策 ， 不 可 能 不 出 问题 ， 不 可 能 不 被 下 面 蒙 南 、 欺 骗 。 大 数据 决策 ， 则 要 求 从 
数据 出 发 ， 而 不 是 从 经 验 或 者 感觉 出 发 。 显 然 ， 这 是 一 场 决策 机 制 上 的 革命 。 天 
气 预 报 之 所 以 基本 正确 ， 就 是 赁 数据 决策 的 。 

(2) 赁 数据 决策 ， 而 不 能 凭 感情 决策 

所 谓 赁 感情 决策 ， 就 是 在 决策 的 时 候 ， 不 去 考虑 国家 利益 、 整 体 利 益 ， 而 是 
照顾 某 个 人 、 某 些 人 的 利益 。《 新 华 每 日 电讯 》2016 年 1 月 7 日 报道 ， 有 位 海 
外 学 者 是 研究 气象 学 的 ， 他 希望 在 国内 推广 一 项 新 的 预报 技术 ， 但 行走 多 年 ， 没 
有 丝毫 进展 。 人 们 都 承认 他 的 技术 可 行 ， 但 是 就 是 找 不 到 地 方 进行 试验 。 一 位 长 
江 学 者 提醒 他 : “你 的 技术 很 好 ， 也 代表 了 未 来 发 展 方向 ， 但 我 们 不 能 用 ， 你 得 
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给 同行 留 口 饭 吃 啊 ! ”在 倡导 创新 驱动 的 今天 ， 害 怕 某 项 创新 影响 了 某 些 人 的 饭 
碗 ， 就 加 以 过 制 ， 令 人 不 解 。 

(3) 实时 及 时 决策 ， 而 不 能 拖延 误 事 

大 数据 时 代 ， 一 切 在 线 ， 监 管 性 数据 实时 及 时 ， 能 够 做 到 不 拖延 ， 不 误 事 。 
众所周知 ， 决 策 的 前 提 是 对 主客 观 情况 的 了 解 。 在 大 数据 时 代 ， 决 策 主 体能 够 通 
过 大 数据 工具 及 时 掌握 主客 观 情况 ， 将 有 数据 支持 的 主客 观 情况 及 时 提交 到 决策 
者 面前 。 

以 企业 为 例 ,领导 者 可 以 凭借 信息 系统 , 将 实际 运行 中 的 实时 数据 摆 在 面前 ， 
而 不 是 层 层 听 反 映 , 层 层 过 滤 , 造成 失真 。 同时, 凭借 大 数据 还 可 以 掌握 行业 状况 、 
行业 数据 。 情 况 不 明 决 心 大 , 造成 “胡乱 决策 ”; 情况 明 决 心 大 , 叫 “ 明 智 决策 ”。 
过 去 ， 要 不 要 决策 从 外 地 “调配 ”农夫 山泉 水 ， 需 要 24 小 时 才能 汇总 决策 ， 现 
在 仅 需 要 0.67 秒 。 原 来 各 大 银行 能 不 能 对 企业 贷款 ， 需 要 几 天 、 几 十 天 仔细 研究 ， 
现在 只 需要 1 秒 。 

(4) 凭借 “过 程 数据 ”， 而 不 是 “结果 数据 ” 

大 数据 具有 非常 清晰 的 记录 功能 。 它 能 够 记录 从 一 端 到 另 一 端的 系统 数据 。 
有 了 记录 过 程 的 系统 数据 ， 就 能 找到 问题 出 现 的 原因 与 继 后 的 变化 ， 从 而 决定 
采取 怎样 的 措施 。 比 如 ， 某 家 超市 的 蔬菜 销售 额 下 降 ， 这 种 下 降 是 通过 一 个 销 
售 额 模型 发 现 的。 通常 上 午 10 点 钟 肉 类 、 蔬 菜 、 食 用 油 三 种 商品 的 销售 比值 为 
100 : 80 : 60， 今 天 上 午 10 点 却 是 100 : 40 : 60。 是 哪个 环节 出 了 问题 呢 ? 是 商 
品质 量 引起 了 顾客 的 不 满 ? 是 商品 位 置 摆 放 不 够 合理 ? 还 是 另 有 隐情 ? 聪明 的 大 
数据 能 够 帮助 店主 知道 原因 ， 加 以 改进 。 当 然 ， 这 个 “诊断 工具 ”是 某 商场 自己 
分 析 开 发 出 来 的 。 

(5) 重视 预测 性 数据 ， 避 免 放 “马后炮 ” 

大 数据 的 预测 功能 ， 通 常 是 通过 运用 回归 分 析 、 时 间 序 列 分 析 、 随 机 树 、 神 
经 网 络 技术 等 实现 的 。 例如 在 连续 制造 工厂 ,通过 对 关键 设备 运行 数据 (如 温度 ) 
的 采集 、 跟 踪 、 分 析 ， 就 能 够 提前 进行 干预 、 维 修 ， 以 避免 事故 的 发 生 。 通 常 不 
是 凭借 一 个 数据 ， 而 是 多 个 数据 。 

例如 GE 大 数据 团队 积累 了 5500 多 架 飞 机 和 7800 多 万 小 时 的 飞行 数据 ， 并 
从 中 整合 出 4600 多 个 有 关 飞 行 安全 的 预 置 分 析 模 型 。 该 公司 由 此 向 世界 各 国 提 
供 “ 飞 行 能 效 服 务 ”。 据 说 它 已 经 为 我 国 春秋 航空 公司 建立 了 强大 的 数据 库 。 帮 
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助 春秋 公司 实现 智能 化 飞行 。 在 飞机 、 电 梯 、 高 铁 等 重要 领域 ， 都 在 利用 这 样 的 
功能 保障 安全 。 

(6) 发 挥 数据 指导 功能 ， 提 升 生产 服务 水 准 

2015 年 的 “ 双 十 一 ”光棍 节 一 天 ， 阿 里 巴巴 创造 了 交易 额 912 亿 元 的 奇迹 。 
1 秒 钟 内 完成 14 万 笔 交 易 。 创 造 这 项 奇迹 的 前 提 是 ， 必 须 让 平台 上 的 商家 把 要 
销售 的 商品 提前 配备 好 。 商 品 备 多 了 ， 就 会 积压 卖 不 出 去 ， 备 少 了 ， 就 会 白白 丢 
掉 大 好 时 机 。 阿 里 巴巴 通过 一 系列 数据 化 手段 ， 帮 助 平 台 上 的 商家 搞 好 库存 。 例 
如 ， 研 究 客户 搜索 、 点 击 、 浏 览 、 开 通 预订 的 数据 ， 以 利 商家 搞 好 备货 。 这 其 中 
免不了 要 查看 前 几 年 的 销售 、 价 格 弹性 等 。 

实际 上 ， 这 是 一 种 凭借 数据 运算 的 指导 过 程 。 玩 不 了 这 种 指导 过 程 ， 就 不 会 
获得 如 此 庞大 的 癫 峰 数 据 ， 创 造 不 了 如 此 惊人 的 巅峰 业绩 。 


大 数据 分 析 与 竞争 优势 


中 共 中 央 《 关 于 深化 人 才 发 展 体制 机 制 改革 的 意见 》 提 出 “充分 利用 云 计算 
和 大 数据 等 技术 , 为 用 人 主体 和 人 才 提 供 高 效 便捷 服务 。” 马 云 在 《如 何 解读 互 
联网 +”》 中 也 提出 : “世界 正在 迅速 改变 ， 很 多 人 还 不 知道 IT 是 什么 ， 今 天 
IT 已 经 在 向 DT〈 数 字 科 技 ) 时 代 快 速 跨 越 。IT 科技 和 DT 科技 不 仅仅 是 不 同 的 
技术 ， 还 是 人 们 思考 方式 的 不 同 ， 人 们 对 待 这 个 世界 方式 的 不 同 。”“ 当 下 进行 
的 第 三 次 互联 网 技术 革命 ， 数 据 将 成 为 核心 资源 ， 在 未 来 ， 数 据 成 为 生产 资料 ， 
计算 成 为 新 的 生产 力 。” 

牛津 大 学 教授 、 大 数据 权威 专家 、《 大 数据 时 代 》 作 者 维克托 。 迈 尔 - 舍 恩 
伯 格 博士 被 誉 为 “大 数据 时 代 的 预言 家 ”。 他 在 2013 IBM 技术 峰会 做 主题 演讲 
《信息 风暴 时 代 的 黎明 : 成 功 与 失败 》 时 提 道 : “网 络 延 伸 出 的 信息 风暴 通过 以 
预测 为 核心 的 活动 ， 创 造 出 不 可 估量 的 商业 价值 。 信 息 风暴 促进 了 大 数据 及 分 析 
等 创新 技术 的 应 运 而 生 ， 加 速 了 以 数据 为 核心 的 企业 业务 模式 的 转型 ， 同 时 也 带 
动 了 移动 、 云 计算 、 社 交 、 分 析 、 软 件 开发 等 新 兴 科 技 的 莲 勃 发 展 。” 软 件 行业 
出 身 的 舍 恩 伯 格 博士 感叹 : “我 非常 认同 IBM 用 技术 引领 创新 、 以 技术 驱动 商 
业 ， 赁 技术 成 就 梦想 技术 精神 和 实践 ， 我 想 这 也 是 IBM 之 所 以 能 够 百年 常 青 的 
原因 。 相 信 掌 控 新 兴 科 技 的 技术 人 才 和 企业 必然 会 成 为 未 来 商业 社会 的 佼佼 者 和 
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大 赢家 。”@ 作为 新 兴 技 术 的 大 数据 分 析 ， 可 以 使 我 们 获得 竞争 优势 。 
1. 大 数据 成 为 “强国 密码 ”9 


大 数据 是 新 一 代 科 技 浪潮 中 的 核心 科学 技术 。2015 年 国务 院 印 发 《促进 大 
数据 发 展 行动 纲要 》, 高 屋 建 领地 为 大 数据 在 各 个 领域 的 应 用 和 发 展 提供 了 指导 。 

大 数据 的 应 用 发 展 与 快速 推进 主要 体现 在 以 下 几 个 方面 : 建立 国家 级 大 数据 
平台 ， 使 数据 成 为 国家 战略 资源 并 成 为 大 数据 实际 应 用 的 基础 ， 各 级 政府 和 诸多 
行业 利用 大 数据 平台 助力 解决 交通 拥堵 、 教 育 普及 、 精 准 扶贫 等 棘手 问题 。 大 数 
据 的 精准 性 、 预 测 性 和 智能 性 ， 为 各 行业 在 规划 、 治 理 、 管 理 、 决 策 、 营 销 等 方 
面 的 决策 提供 了 强 有 力 支持 。 

总 体 来 看 ， 大 数据 在 商业 、 金 融 、 物 流 和 零售 等 行业 的 应 用 已 经 先行 一 步 ， 
在 医疗 、 教 育 和 体育 等 行业 的 应 用 方兴未艾 ， 但 是 在 十 分 重要 的 政府 治理 方面 尚 
有 待 加 大 发 力 。 

2016 年 8 月 ， 中 国 女排 在 里 约 奥运 会 上 再 次 夺 得 世界 冠军 ， 举 国 欢 庆 。 中 
国 女排 能 够 在 极其 艰难 的 情况 下 再 次 书写 世界 传奇 ， 除 了 勇于 拼搏 的 女排 精神 之 
外 ， 科 学 的 “数据 分 析 ” 绝 不 可 轻视 。 

人 们 注意 到 : 这 次 女排 征战 团队 中 ， 有 一 位 身 穿 白色 运动 服 ， 坐 在 球场 一 侧 
操作 计算 机 的 陪 打 教 练 一 圳 灵犀 。 此 人 不 仅 精 通 排球 ， 而 且 懂 得 计算 机 与 大 数 
据 技 术 。 女 排 重 金 购买 了 专业 的 排球 大 数据 分 析 软 件 ， 里 面 保存 有 世界 排球 强 队 
每 个 队员 在 不 同 战 术 中 扣 球 与 吊 球 的 习惯 路 线 等 资料 。 赛 前 ， 圳 灵犀 一 直 利用 数 
据 分 析 指 导 女排 队员 训练 。 比 赛 过 程 中 ， 每 个 回合 他 都 利用 代码 将 有 价值 的 细节 
录入 系统 ， 时 时 向 教练 提供 本 队 与 对 手 的 技术 分 析 数 据 。 有 了 圳 灵犀 及 其 数据 分 
析 ， 总 教练 郎平 才能 真正 做 到 知己 知 彼 ， 正 确 决策 ， 调 整 队员 布局 。 大 数据 分 析 
助力 女排 胜利 夺冠 ， 这 正 是 大 数据 在 中 国 如 火 如 茶 发 展 的 一 个 缩影 。 


2. 大 数据 分 析 让 企业 掌握 竞争 力 绝对 优势 
IBM 大 中 华 区 大 数据 和 分 析 及 新 市 场 总 经 理 ， 全 球 企业 咨询 服务 部 合伙 人 、 
@ ”维克托 * 迈 尔 - 合 恩 伯 格 . 信息 风暴 时 代 的 黎明 : 成 功 与 失败 . 2013IBM 技术 峰会 .http/ 


SeIverS$lcto.com/BigData-402711.htm 
@ ” 王 通讯 ， 黄 秋 钧 . 大 数据 产业 莫 让 人 才 拖 后 腿 . 光明 日 报 . 2016 年 11 月 8 日 16 版 . 
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副 总 裁 Jason Kelley 在 接受 《南方 都 市 报 》 专 访 时 表示 ， 企 业已 经 逐步 明确 数据 
作为 21 世纪 新 自然 资源 的 巨大 价值 。 大 数据 与 分 析 成 为 提升 企业 竞争 力 的 绝对 
优势 ， 进 行 转型 和 创新 的 巨大 动力 。? 在 国内 ， 越 来 越 多 的 IT 龙头 企业 ， 以 及 众 
多 创新 企业 开始 认识 到 大 数据 的 “能 量 巨大 ”， 纷 纷 开始 运用 大 数据 为 企业 运营 
助力 。 

百度 创始 人 李 疹 宏 在 各 种 会 议 场合 都 在 强调 “AI 时代 ”“ 人 工 智能 ”“ 数 
字 经 济 ”等 关键 词 ， 并 花费 巨 资 开 启 了 人 工 智能 研究 的 新 时 代 ， 大 数据 应 用 平台 
已 经 迭代 到 了 3.0。 华 南 地 区 ， 由 于 在 金融 、 电 信 、 医 疗 、 零 售 、 制 造 等 行业 具 
有 领先 优势 和 得 天 独 厚 的 数据 资源 ， 大 数据 与 分 析 已 经 被 深度 挖掘 ， 在 拓展 商业 
和 惠及 民生 方面 ， 都 获得 了 高 价值 突破 。 

目前 ， 微 软 、 甲 骨 文 、IBM 和 SAP 都 花 了 超过 15 亿美 元 大 手笔 用 于 软件 智 
数据 的 管理 和 分 析 方面 的 研究 ， 每 一 家 公司 都 会 有 大 数据 应 用 方面 的 专长 。 比 
如 ，IBM 通过 提供 整套 解决 方案 ， 来 增加 它们 应 用 大 数据 的 能 力 ， 能 够 增强 它们 
在 这 些 方面 的 综合 解决 的 各 种 能 力 。 


3. 大 数据 分 析 应 用 场景 


市 场 营销 。 吸 引 、 培 养 并 保留 住 客户 。 大 数据 可 以 帮助 我 们 为 客户 提供 其 需 
要 的 个 性 化 产品 和 服务 ， 充 分 利用 企业 内 外 的 所 有 数据 ， 对 客户 的 需求 和 行为 进 
行 智能 预测 ， 通 过 客户 所 使 用 的 渠道 ， 实 现 协 作 式 的 实时 互动 ， 通 过 更 好 地 了 解 
客户 ， 提 供 适 当 的 服务 水 平 ， 从 而 提高 客户 保留 率 ， 将 客户 转变 为 支持 者 。 根 据 
Accenture Interactive 公司 的 一 项 研究 ，91% 的 高 绩效 客户 体验 者 表示 ， 数 据 分 析 
对 于 改善 客户 体验 至 关 重 要 。 通 过 一 个 实时 商店 监控 平台 (RTSMP) ， 具 有 跟 
踪 客 户 在 商店 内 浏览 商品 的 能 力 。 

优化 运营 ， 提 高 效率 。 通 过 大 数据 和 分 析 战 略 可 以 让 我 们 清晰 地 认识 ， 企 业 
运营 流程 和 系统 是 否 发 挥 了 应 有 的 效率 ;适时 了 解 企业 动态 ， 是 否 能 够 减少 浪费 
和 欺诈 ;如何 规划 、 管 理 运 营 、 供 应 链 和 基础 架构 资产 的 使 用 ， 最 大 程度 地 发 挥 


Q@ ”大 数据 与 分 析 让 企业 掌握 竞争 力 绝对 优势 . http://gd.sina.com.cn/szfinance/hlwjr/2014-08-22/07434737. 
html. 

@ 要 将 大 数据 和 分 析 转 变 为 竞争 优势 ， 实 现 业 务 转型 ， 必 须 做 到 这 三 点 .http://blog.csdn.net/tcict/ 
article/details/72867115. 
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它们 的 作用 ， 如 何 获取 降低 成 本 ,提高 效率 、 生 产 力 以 及 减少 威胁 所 需要 的 洞察 。 

优化 管理 和 财务 流程 。 大 数据 分 析 能 够 帮助 我 们 适时 获取 有 关 业 务 各 个 方面 
的 可 靠 信 息 ; 全 面 了 解 、 深 入 洞察 和 控制 财务 表现 ， 以 便 更 好 地 衡量 、 监 控 和 实 
现 业务 成 果 ; 分 析 所 有 数据 ， 以 推动 企业 敏捷 性 ， 并 提供 洞察 ， 帮 助 做 出 有 关 业 
务 战略 和 人 力 资本 管理 的 明智 决策 。 

管理 风险 。 大 数据 分 析 可 以 让 我 们 清楚 如 何 才能 规避 可 能 摧毁 企业 的 财务 和 
运营 风险 ， 如 何 管理 法 规 变化 ， 降 低 不 合 规 风险 ， 如 何 主动 发 现 、 了 解 和 管理 财 
务 和 运营 风险 ， 以 便 能 够 做 出 更 多 具有 风险 意识 的 决策 。 

创建 新 业务 模式 。 大 数据 分 析 能 够 帮助 我 们 了 解 竞 争 对 手 在 改变 行业 或 创造 
新 市 场 的 过 程 中 是 否 比 我 们 更 快 一 步 ， 我们 的 企业 文化 是 否 支 持 创新 的 思维 和 探 
索 ; 使 用 通过 探索 大 数据 和 分 析 所 获取 的 新 视角 ， 研 究 战略 性 的 业务 增长 选项 。 

最 大 程度 获得 洞察 ， 确 保 信 任 和 改进 IT 经 济 性 。 据 估计 ， 截 至 2020 年 ， 数 
字数 据 将 是 地 球 上 沙 粒 总 数 的 四 倍 。 所 关注 的 问题 主要 包含 ，IT 基础 架构 是 否 
E 够 提供 决策 制定 者 需要 的 洞察 ， 数 据 中 心 和 数据 是 否 得 到 充分 保护 ， 免 受 可 能 
的 犯罪 活动 或 欺诈 的 侵扰 是 否 能 够 通过 优化 大 数据 和 分 析 ， 以 较 低 的 成 本 更 快 
地 获得 洞察 ， 推 动 创 造 新 价值 ， 实 现 事业 的 敏捷 性 。 


4. 大 数据 分 析 为 人 力 资源 带 来 的 竞争 优势 


管理 决策 。 传 统 的 企业 人 力 资 源 管理 采用 的 是 经 验 预测 法 、 德 尔 菲 法 和 描述 
法 等 定性 分 析 法 ， 没 有 数据 分 析 作 为 支撑 ， 管 理 人 员 做 决策 时 很 容易 受到 环境 及 
自身 情况 的 影响 ， 尤 其 是 个 人 的 知识 水 平 、 文 化 背景 、 个 人 偏好 等 主观 因素 对 决 
策 影 响 很 大 ， 对 决策 的 正确 性 有 一 定 影响 。 

在 大 数据 环境 下 的 人 力 资源 规划 ， 可 以 通过 数据 动态 地 跟踪 、 分 析 员 工 的 工 
作 情 况 和 状态 ， 离 职 率 、 员 工 供需 等 信息 ， 准 确 地 进行 人 力 资源 诊断 及 决策 ， 人 
才 招 聘 方面 ， 传 统 的 招聘 工作 一 般 面 对 的 是 成 千 上 万 的 简历 ， 从 中 选 出 适合 的 人 
选 需要 消耗 一 定 的 精力 ， 而 且 效 率 低 下 、 周 期 长 、 成 本 高 。 大 数据 背景 下 ， 招 聘 
工作 可 以 借助 数据 挖掘 技术 找到 合适 的 简历 ， 并 高 效 完 成 人 岗 匹 配 。 对 于 培训 与 
发 展 规划 ， 培 训 需 求 的 精准 把 握 和 培训 效果 是 保障 培训 工作 有 成 效 的 重点 ， 借 助 
大 数据 的 数据 分 析 技术 ， 通 过 对 员工 相关 数据 分 析 ， 识 别 出 员 工 的 学 习 需 求 、 行 
为 、 模 式 及 效果 ，HR 可 以 随时 得 到 员工 学 习 进 程 和 效果 等 数据 信息 ， 使 培训 的 
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过 程 更 加 关注 员工 个 人 发 展 。 薪 酬 是 激励 人 才 的 最 有 效 方式 之 一 ， 合 理 的 薪酬 制 
度 设计 对 于 企业 吸引 、 留 住 核心 人 才 有 关键 作用 ， 通 过 大 数据 技术 ， 可 以 获取 行 
业 薪 酬 水 平和 员工 职业 生涯 中 的 个 人 薪酬 水 平 情况 ， 对 确定 合理 的 薪酬 政策 有 极 
大 的 助力 作用 ， 更 为 准确 地 掌握 国内 劳动 力 薪酬 变动 和 员工 薪酬 预期 ， 提 高 人 力 


资源 管理 工作 中 薪酬 管理 的 有 效 性 。 
FE | 沃尔玛 如 何 利 用 大 数据 颠覆 零售 业 ? 


延伸 阅读 | 


沃尔玛 是 最 早 通 过 利用 大 数据 而 受益 的 企业 之 一 ,一 度 拥有 
| 世界 上 最 大 的 数据 仓库 系统 。 通 过 对 消费 者 的 购物 行为 等 非 结 构 化 
数据 进行 分 析 ， 沃 尔 玛 成 为 最 了 解 顾客 购物 习惯 的 零售 商 ， 并 创造 
了 “啤酒 与 尿布 ”的 经 典 商业 案例 。 早 在 2007 年 ， 沃 尔 玛 就 建立 了 
一 个 超大 的 数据 中 心 ， 其 存储 能 力 高 达 4Pb 以 上 。《 经 济 学 人 》 在 
2010 年 的 一 篇 报道 中 指出 ， 沃 尔 玛 的 数据 量 已 经 是 美国 国会 图 书馆 
的 167 倍 。 

“对 沃尔玛 最 重要 的 是 它 的 规模 。 消 费 群 的 规模 、 产 品 的 规模 ， 

以 及 技术 的 规模 。”“ 我 们 渴望 洞察 世界 上 每 一 个 产品 ， 我 们 渴望 了 

解 世界 上 每 一 个 人 。 我 们 希望 能 够 通过 交易 将 产品 与 用 户 连接 。” 

从 收入 方面 讲 ，2014 年 沃尔玛 是 世界 上 最 大 的 零售 商 。 沃 尔 玛 

每 天 从 美国 4300 家 分 店 获得 将 近 3600 万 美元 营业 额 ， 同 时 雇员 近 200 
万 人 。 沃尔玛 在 大 数据 还 未 在 行业 流行 前 就 开始 利用 大 数据 分 析 。 
2012 年 ， 沃尔玛 采取 行动 将 实验 性 的 10 个 节点 Hadoop 集 群 扩展 到 250 
个 节点 组 成 的 Hadoop 集 群 。Hadoop 集 群 迁 移 的 主要 目的 是 把 10 个 不 
同 的 网 站 整合 到 一 个 网 站 ， 这 样 所 有 生成 的 非 结 构 化 数据 将 被 收集 
到 一 个 新 的 Hadoop 集 群 。 自 那 时 以 来 ， 沃 尔 玛 为 了 能 够 提供 卓越 的 
用 户 体验 ， 而 在 提供 一 流 电子 商务 技术 和 在 大 数据 分 析 路 上 加 速 向 
前 。 沃尔玛 收购 了 一 个 新 创办 的 小 公司 Inkiru 来 提高 其 大 数据 性 能 ， 
Inkiru 的 总 部 位 于 加 州 的 帕 洛 奥 图 。Inkiru 在 有 针对 性 的 市 场 营销 、 
销售 和 反 欺 诈 等 方面 为 沃尔玛 提供 帮助 。Inkiru 的 预测 技术 平台 从 不 


@ ” 李 华 芳 .沃尔玛 如 何 利用 大 数据 颠覆 零售 业 . https://baijia.baidu.conmy/s?old id=442944. 
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同 来 源 获取 数据 ， 并 通过 数据 分 析 帮 助 沃尔玛 提高 个 性 化 。Inkiru 的 
预测 分 析 平 台 整 合 机 器 学 习 技术 从 而 自动 提高 算法 的 准确 性 ， 并 且 
可 以 与 各 种 外 部 和 内 部 集成 的 数据 源 整合 。 

1. 沃 尔 玛 如 何 利用 大 数据 ? 

沃尔玛 有 一 个 庞大 的 大 数据 生态 系统 (图 1-17 ) 。 沃尔玛 的 大 
数据 生态 系统 每 天 处 理 数 TB 级 的 新 数据 和 PB 级 的 历史 数据 。 其 分 析 
涵盖 了 数 以 百 万 计 的 产品 数据 和 不 同 来 源 的 数 亿 客户 。 沃 尔 玛 的 分 析 
系统 每 天 分 析 接近 1 亿 关键 词 ， 从 而 优化 每 个 关键 字 的 对 应 搜索 结果 。 


( 属性 、 国 家 、 部 门 、 业 务 ] 


报告 引擎 和 用 户 界面 层 


CE TT 
播 件 和 其 他 公司 等 所 数 扣 存储: 关系 型 数据 库 和 Hadoop 等 轩 | 物 流 、 日 志 、 产 品 
分 析 引 擎 竞价 引擎 | 价格 引擎 


搜索 引擎 营销 插件 | | 社交 媒体 插件 | | 邮件 和 客户 关系 插件 | | 手机 插件 


图 1-17 沃尔玛 大 数据 生态 系统 


沃尔玛 改变 了 导致 重复 销售 的 决策 ， 这 带 来 了 10% 一 15% 在 线 
销售 的 明显 涨幅 ， 增 加 收入 为 10 亿 美元 。 沃 尔 玛 第 一 个 利用 Hadoop 
数据 的 应 用 节省 捕手 一 一 只 要 周边 竞争 对 手 降 低 了 客户 已 经 购买 的 
产品 的 价格 ， 该 应 用 程序 就 会 提醒 客户 。 然 后 这 个 应 用 程序 会 向 客 
户 发 送 一 个 礼券 补偿 差价 。 

eReceipts 应 用 程序 为 客户 提供 购买 的 电子 副本 。 

Hadoop 一 个 沃尔玛 的 地 图 应 用 程序 ， 利 用 Hadoop 来 维护 全 球 
1000 多 家 沃尔玛 商店 的 最 新 地 图 。 这 些 地 图 能 够 给 出 沃尔玛 商店 
里 一 小 块 肥皂 的 精确 位 置 。 


内 部 数据 财务、 客户、 
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2. 沃尔玛 如 何 追踪 用 户 ? 

“我 们 整合 数据 的 能 力 是 无 可 媲美 的 。” 沃 尔 玛 使 用 数据 挖 气 
来 发 现 销售 数据 的 模式 。 数 据 挖掘 可 以 帮助 沃尔玛 找到 模式 ， 该 模 
式 基于 哪些 产品 需要 一 起 购买 或 者 购买 特殊 商品 前 需要 购买 茶 一 产 
品 的 信息 ， 向 用 户 提供 商品 推荐 。 在 沃尔玛 ， 有 效 的 数据 挖掘 增加 
了 客户 的 转化 率 。 

下 面 是 一 个 有 效 的 数据 挖掘 技术 的 典型 案例 : 沃尔玛 通过 关联 
规则 学 习 ， 发 现 草 攻 果 的 销售 量 在 刚 风 之 前 增长 了 7 倍 ， 通 过 数据 
挖掘 确认 飓风 和 草莓 果 之 间 的 联系 ,使 其 所 有 的 草莓 果 在 飓 风 前 信 
出 。 沃 尔 玛 拥有 详尽 的 将 近 1.45 亿 美国 客户 数据 ， 大 约 是 美国 成 年 
人 的 60% 数 据 。 可 以 单独 跟踪 每 个 消费 者 。 沃 尔 玛 通过 店内 WiFi 收 
集 关于 客户 购买 的 物品 、 他 们 住 的 地 方 、 他 们 喜欢 的 产品 等 信息 。 
沃尔玛 实验 室 的 大 数据 团队 分 析 用 户 在 Walmart.com 的 点 击 行 为 ， 消 
费 者 在 店内 和 线 上 购买 的 物品 ， 推 特 上 的 趋势 ， 当 地 的 活动 ( 如 旧 
金山 巨人 队 赢 得 世界 大 赛 ) ， 当 地 天 气 偏差 如 何 影响 购买 模式 ， 等 
等 。 所 有 的 活动 都 是 在 由 大 数据 算法 捕获 和 分 析 从 而 识别 有 意义 的 
大 数据 洞察 力 ， 而 这 可 帮助 数 百 万 客户 享受 个 性 化 的 购物 体验 。 

3. 沃尔玛 如 何 真正 提高 销售 量 ? 

(1 ) 推出 新 产品 

沃尔玛 正 利用 社交 媒体 数据 来 发 现 热门 产品 ， 如 此 这 些 热门 
产品 就 可 被 引入 世界 各 地 的 沃尔玛 商店 。 例如， 沃尔玛 通过 分 析 社 
交 媒 体 数据 发 现 了 热 搜 词 “ 有 蛋糕 棒 棒 糖 ”。 沃 尔 玛 迅 速 反应 ， 于 是 
“蛋糕 棒 棒 糖 ” 在 各 个 商店 上 架 。 

(2 ) 更 佳 预测 分 析 技 术 

基于 数据 分 析 ， 沃尔玛 最 近 修改 了 其 产品 送 货 政策 。 沃 尔 玛 利 
用 预测 分 析 ， 提 高 了 在 线 订单 免费 送 货 的 最 低 金 额 。 最 新 的 沃尔玛 
送 货 政策 将 运费 的 最 低 金 额 从 45 美 元 调 高 到 50 美 元 ， 但 同时 增加 了 
几 个 新 产品 以 提高 顾客 购物 体验 。 

(3 ) 个 性 化 定制 建议 

该 行为 与 谷歌 相似 ， 只 是 谷歌 通过 跟踪 用 户 浏览 行为 来 量 身 定 
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制 广告 ,而 沃尔玛 基于 用 户 购买 历史 ， 通过 大 数据 算法 分 析 用 户 信 
用 卡 购买 行为 ， 从 而 向 其 客户 提供 专业 建议 。 

4. 沃尔玛 的 大 数据 分 析 解 决 方案 

(1 ) 社交 媒体 大 数据 解决 方案 

社交 媒体 的 数据 是 非 结 构 化 的 ， 非 正式 的 ， 一 般 不 符合 语法 
的 。 分 析 和 挖掘 数 PB 的 社交 媒体 数据 从 而 找到 重要 因素 ， 然 后 将 
其 映射 到 有 意义 的 沃尔玛 产品 是 一 个 艰巨 的 任务 。 大 部 分 驱动 决策 
的 沃尔玛 的 数据 是 基于 社交 媒体 一 一 Facebook、Pinterest、Twitter、 
LinkedIn 等 的 。 沃 尔 玛 实 验 室 利 用 社交 媒体 分 析 从 而 产生 零售 相关 的 
大 数据 见解 。 

沃尔玛 推出 社交 媒体 众 包 竞赛 ， 该 比赛 帮助 企业 家 的 产品 上 
架 ， 吸 引 了 超过 5000 个 条 目 并 在 美国 获得 100 万 多 张 选票 。 任 何人 都 
能 参与 并 帮助 他 们 的 产品 与 数 百 万 客户 相遇 。 最 好 的 产品 被 宣布 为 
赢家 并 且 可 以 在 沃尔玛 商店 卖 给 数 百 万 客户 。 

WalmartLabs 首 席 工 程 师 阿 伦 。 普 拉 塞 斯 说 : “社交 媒体 分 析 都 
是 从 社交 渠道 挖 据 零 售 相关 的 隐藏 信息 ， 对 我 们 来 说 是 非常 惊险 和 
兴奋 的 任务 。 当 我 们 的 团队 在 黑色 星期 五 (11 月 22 日 ) 花 了 一 天 狂 
热 追 随 社交 零售 热潮 时 ， 我 们 知道 世界 上 没有 一 定 规律 可 言 。” 

(2 ) 社交 基因 组 (Kosmix 的 语音 网 页 平台 ) 

“只 有 征服 多 倍 挑战 后 ， 我 们 才能 得 到 有 意义 的 推荐 …… 我 们 
的 社交 媒体 分 析 项 目 运营 在 600 亿 个 社交 文档 上 的 可 查找 索引 ， 帮 助 
沃尔玛 的 商家 实时 监控 情绪 和 流行 热点 ， 或 调查 过 去 的 趋势 。 该 项 
目 还 可 以 看 到 社会 情绪 和 社会 热点 水 平 的 地 理 差 异 。 项 目 也 有 一 些 
工具 能 帮助 产生 关联 性 ， 如 在 walmart.com 上 的 婚姻 搜索 趋势 ， 在 我 
们 的 实体 店 销售 趋势 和 一 个 地 方 的 社会 热点 趋势 。 将 这 些 分 析 结 果 
结合 ， 那 么 这 些 工具 就 提供 了 强 有 力 的 社会 洞察 力 。” 

(3 ) 沃尔玛 的 Shopycat-Gift 推 荐 引 掌 

沃尔玛 利用 预测 分 析 技术 的 库存 管理 。 德 勤 的 调查 发 现 ， 受 移动 
端 影响 的 线 下 销售 额 预计 在 2016 年 年 底 达 到 7000 亿 美元 。 为 得 到 它 的 
移动 端 战略 ， 沃 尔 玛 利用 大 数据 的 力量 驱动 工具 和 服务 的 发 展 。 超 过 
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一 半 的 沃尔玛 的 客户 使 用 智能 手机 ， 其 中 35% 的 消费 者 是 成 人 ， 接 近 3/4 
的 总 体 客户 基础 是 成 人 。 移 动 电话 客户 对 沃尔玛 是 极其 重要 的 ， 因 为 智 
能 手机 消费 者 大 多 出 行 且 出 行 移动 消费 比 店内 消费 多 77%。 因 此 ， 手 机 
用 户 购买 量 每 年 占 沃尔玛 销售 量 的 113， 在 节假日 的 时 候 大 约 占 40%。 

沃尔玛 移动 和 数码 高 级 副 总 裁 托 马 斯 认为 : “电子 商务 与 移动 
购买 密切 相关 。 全 球 最 大 的 零售 商 将 使 用 大 数据 来 提升 消费 者 购物 
体验 。” 他 还 补充 说 :“ 我 们 的 移动 战略 既 简 单 又 大 胆 。 我 们 希望 移 
动工 具 成 为 不 可 或 缺 的 帮手 ， 当 他 们 在 我 们 店内 或 者 线 上 购物 时 。 
这 种 零售 方式 为 应 对 未 来 竞争 将 提高 用 户 个 性 化 体验 ， 这 一 切 会 发 
生 在 手中 的 小 屏幕 上 。” 沃 尔 玛 利用 大 数据 分 析 技 术 提 高 其 移动 应 
用 的 预测 能 力 。 通 过 分 析 客 户 每 周 购买 数据 ， 手 机 应 用 程序 生成 一 
个 购物 清单 。 沃 尔 玛 的 移动 应 用 程序 由 可 告诉 用 户 想 购买 商品 的 位 
置 的 购物 清单 组 成 ， 并 且 该 应 用 通过 提供 Walmart.com 上 类 似 产 品 的 
折扣 推动 用 户 购 买 。 沃 尔 玛 的 另 一 种 利用 大 数据 分 析 力 量 的 方式 是 
实时 分 析 一 一 当 客 户 进入 沃尔玛 商店 。 沃 尔 玛 移动 应 用 的 地 理 围栏 
功能 无 论 何 时 都 能 感知 用 户 是 否 进入 美国 沃尔玛 商店 。 这 个 应 用 程 
序 要 求 用 户 进 入 “商店 模式 ”。 移动 应 用 商店 模式 帮助 用 户 扫描 特 
别 折扣 的 量化 宽松 政策 法 规 和 提供 他 们 想 买 的 产品 。 

5. 沃尔玛 如 何 应 对 大 数据 技术 危机 ? 

沃尔玛 大 数据 每 天 以 惊人 速度 增长 而 大 数据 人 才 的 缺乏 成 为 
沃尔玛 数据 分 析 的 主要 障碍 。 在 有 限 的 具有 大 数据 技术 的 人 员 情 况 
下 ,沃尔玛 正在 采取 所 有 必要 的 措施 来 克服 这 一 挑战 ， 使 得 它 没有 
落后 于 其 竞争 对 手 。 每 当 一 个 新 团队 成 员 加 入 沃尔玛 实验 室 的 分 析 
团队 ， 他 /她 必须 参加 分 析 旋 转 程序 。 该 项 目的 候选 人 必须 与 各 个 部 
门人 员 进 行 沟通 从 而 了 解 整个 公司 如 何 利 用 大 数据 分 析 技 术 。 

沃尔玛 正 处 于 一 个 艰难 时 刻 ， 难 于 找到 有 分 析 前 沿 应 用 程序 经 
验 的 专业 人 士 和 能 够 利用 像 Python 和 有 R 编 程 语言 构建 机 器 学 习 模型 
的 数据 科学 家 。 沃 尔 玛 为 其 招聘 活动 使 用 # lovedata 标 签 来 提高 不 断 
壮大 的 阿肯色 州 本 顿 维尔 数据 科学 界 知名 度 。 沃 尔 玛 技 术 部 门 高 级 
招聘 人 员 曼 达 。 塞 克 尔 认为 : “人 力 资源 供给 和 需求 之 间 的 鸿沟 总 
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是 存在 ， 特 别 是 在 新 兴 技 术 方面 。” 在 每 天 有 超过 40PB 数 据 可 供 分 
析 的 沃尔玛 ， 他 认为 对 于 数据 科学 及 数据 分 析 人 才 需 求 前 所 未 有 。 
沃尔玛 零售 业 的 成 功 是 天 时 、 地 利 、 人 和 。 在 大 数据 分 析 的 显著 帮 
助 下 ， 沃 汞 玛 将 继续 攀 爬 零售 业 高 峰 。 沃 尔 玛 努 力 解决 大 数据 技术 
人 才 短 缺 的 问题 。2014 年 ， 沃尔玛 举办 了 一 场 Kaggle 竞 赛 ,将 特定 
商店 的 历史 销售 数据 和 相关 的 促销 活动 等 信息 提供 给 参加 的 专业 人 
士 ， 让 他 们 建造 模型 来 显示 这 些 促销 对 超市 各 区 域 的 影响 。 竞 赛 结 
果 帮 助 沃尔玛 找到 了 技术 能 力 草 越 的 分 析 人 才 。 


人 力 资源 大 数据 及 其 典型 应 用 


“信息 社会 ”的 确立 标志 着 大 数据 时 代 的 到 来 ， 也 标志 着 一 场 生活 、 工 作 与 
思维 的 大 变革 。 大 数据 的 本 质 不 是 它 含 有 多 少 信息 ， 而 是 它 可 以 对 信息 数据 进行 
专业 的 处 理 和 整合 ， 大 数据 时 代 的 到 来 为 企业 人 力 资 源 管 理 带 来 一 场 新 的 变革 。 
正如 维克托 。 迈 尔 。 售 恩 伯 格 在 《大 数据 时 代 》 书 中 所 写 ，“ 大 数据 开启 了 一 次 
重大 的 时 代 转 型 。 就 像 望 远 镜 让 我 们 能 够 感受 宇宙 ， 显 微 镜 让 我 们 能 够 观测 微 生 
物 一 样 ， 大 数据 正在 改变 我 们 的 生活 以 及 理解 世界 的 方式 ， 成 为 新 发 明和 新 服务 
的 源泉 ， 而 更 多 的 改变 正 曹 势 待 发 ……” 测 涌 来 袭 的 大 数据 浪潮 ， 也 是 加 速 企 业 
创新 和 变革 的 重要 利器 。 

对 处 于 战略 转型 中 的 人 力 资 源 管理 ， 大 数据 的 思想 如 何 体现 ? 如 何 运用 大 数 
据 提 升 HR 价值 ， 进 而 提升 组 织 效能 ? 


1. 什么 是 人 力 资源 大 数据 


大 数据 近 几 年 发 展 很 快 ， 图 1-18 展示 了 每 分 钟 互联 网 能 产生 哪些 数据 ， 这 
些 数据 还 在 不 断 地 上 升 。 数 据 的 大 小 通常 按照 如 下 进 阶 ， 后 者 是 前 者 的 1024 倍 。 

KB 一 MB 一 GB 一 TB 一 PB 一 EB 一 ZB 一 YB 一 NB 一 DB 

根据 业界 的 共识 ， 达 到 PB 这 个 级 别 基 本 上 是 大 数据 的 临界 点 ， 也 就 是 说 数 
据 量 积累 到 PB 水 平 以 后 ， 才 能 开始 去 谈 大 数据 。 
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1-18 2016 年 年 底 互联 网 一 分 钟 产生 的 数据 量 ( 数据 来 源 于 网 络 ) 


那么 人 力 资源 的 数据 是 否 属于 大 数据 ? 对 于 人 力 资源 来 讲 ， 大 部 分 企业 人 
力 资源 领域 产生 的 数据 基本 上 还 是 在 GB 这 个 级 别 ， 可 能 有 几 十 个 到 几 百 GB， 
BAT 等 一 些 大 企业 平时 也 比较 重视 数据 ， 也 有 技术 手段 收集 与 积累 数据 ， 存 量 相 
对 高 一 些 ， 可 能 达到 几 十 到 几 百 个 TB。 所 以 仅仅 从 数据 量 上 还 远 远 没 达到 大 数 
据 的 量 级 。 那 是 不 是 说 我 们 人 力 资源 就 不 能 谈 大 数据 了 ? 我 们 可 以 利用 大 数据 的 
思维 方法 以 及 技术 ， 去 研究 与 探索 人 力 资源 管理 ， 在 人 员 规划 、 人 才 画 像 、 离 职 
预测 、 高 潜 识别 、 组 织 效能 、 文 化 活力 、 与 情 分 析 等 方面 进行 深度 洞察 ， 从 而 为 
企业 人 才 方 面 的 决策 提供 高 含金量 的 辅助 依据 与 建议 。 


2. 人 力 资源 大 数据 的 特点 


(1) 相关 性 

人 力 资源 大 数据 特点 之 一 是 相关 性 ， 其 主要 体现 在 三 个 层面 : 

@ 人 力 资源 内 部 业务 数据 :基于 员工 在 “工作 、 生 活 、 学 习 、 发 展 ” 的 四 
个 圈 产 生 的 各 种 各 样 的 信息 〈 包 括 结构 化 数据 、 非 结构 化 数据 ， 下 文 有 示例 ) ， 
彼此 关联 又 互相 影响 。 

@ 人 力 资源 外 部 数据 : 一 是 基准 数据 ， 比 如 各 地 五 险 一 金 政 府 规定 ， 这 些 
基数 的 调整 ， 就 会 影响 到 公司 的 人 工 成 本 ;不 同城 市 对 社保 缴纳 年 限 对 于 买 车 买 
房 的 限制 ， 积 分 落户 ， 租 房 补贴 ， 可 能 影响 人 才 的 流动 等 。 二 是 行业 对 标 数据 ， 
比如 薪酬 调研 报告 、 劳 动力 市 场 趋 势 报告 等 。 三 是 竞 品 公司 各 方面 的 对 标 数 据 。 
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@@ 企业 经 营 数据 也 会 影响 到 人 力 资源 的 数据 分 析 ， 当 公司 效益 好 时 ， 人 力 
资源 方向 的 投入 也 会 增加 ， 比 如 增加 人 才 招 聘 力度 与 培训 费用 、 提 高 员工 薪酬 福 
利 待遇 等 。 当 效益 不 好 时 ， 可 能 采取 关 停 并 转 、 减 员 增 效 等 措施 。 

(2) 流转 性 

大 部 分 人 力 数据 贯穿 在 “入 离 升降 调 、 选 用 育 留 管 ”的 各 个 流程 中 ， 前 后 端 
到 端 流通 并 交互 ， 确 保 业 务 正 常 运转 。 流 转 确保 了 数据 的 连续 性 与 一 致 性 ， 并 且 
流程 中 产生 的 数据 都 有 记录 ， 累 积 下 来 可 用 于 未 来 的 进一步 大 数据 分 析 。 

人 力 资 源 数据 提供 接口 到 下 游 系统 ， 以 便 支 撑 其 他 业务 系统 需要 ; 同时 其 他 
业务 系统 的 一 些 数据 与 人 力 资 源 数据 可 以 有 交互 。 

(3) 分 散 性 

@ 人 力 资 源 本 身 的 数据 分 散在 不 同系 统 里 ， 这 可 能 是 由 于 系统 规划 建设 的 
局 限 性 ， 有 些 系统 不 是 互联 互通 的 ， 比 如 招聘 数据 、 培 训 数 据 、 测 评 数据 、 评 估 
数据 等 。 

@ 人 力 资源 之 外 的 数据 ， 比 如 经 营 数据 ， 涉 及 财务 、 销 售 、 业 务 等 部 门 ， 
掌握 在 各 个 部 门 自己 手 里 ， 由 于 利益 交错 盘 结 ， 数 据 尚 未 共享 。 

@ 外 部 行业 对 标 数据 。 这 些 数据 大 多 分 散在 不 同 的 地 方 ， 需 要 花费 不 少 人 
力 物力 去 收集 、 整理 、 汇总, 即使 收集 齐 了 , 由 于 维度 的 不 同 , 综合 分 析 也 不 容易 。 

从 实践 角度 来 说 ， 目 前 人 力 资源 数据 存在 一 定 问题 ， 一 是 数据 量 不 够 多 ， 目 
前 很 多 企业 信息 化 系统 建设 也 不 够 完善 ， 数 据 收集 与 积累 有 限 ， 绝 大 多 数 企业 还 
处 于 传统 意义 的 分 析 。 即 使 信息 化 比较 完善 的 企业 ， 由 于 缺少 数据 挖掘 方面 的 专 
业 人 才 ， 数 据 的 积累 仍 停留 在 起 始 阶段 。 二 是 技术 限制 不 易 分 析 ， 绝 大 多 数 人 力 
资源 从 业者 不 懂 大 数据 技术 ， 而 大 数据 专家 也 不 懂 人 力 资源 管理 。 新 时 期 需要 培 
养 跨 界 复合 型 人 才 , 才能 将 人 力 资源 管理 推 到 新 高 度 ,助力 业务 发 展 与 管理 决策 。 


3. 人 力 资源 大 数据 的 价值 


人 力 资源 大 数据 的 价值 主要 体现 在 有 效 运用 大 数据 思维 与 技术 ， 可 以 在 人 力 
资源 规划 、 招 聘 、 员 工学 习 与 发 展 、 绩 效 管理 、 薪 酬 与 激励 体系 、 员 工 福利 与 服 
务 等 方面 展开 探索 与 实践 ， 通 过 数据 挖掘 与 建 模 分 析 ， 预 测 未 来 趋势 ， 为 人 力 资 
源 决 策 提供 辅助 支持 ， 从 而 体现 大 数据 的 价值 。 

首先 ， 大 数据 时 代 思 维 方 式 发 生 了 根本 性 变化 。 过 去 我 们 做 数据 都 是 采样 ， 
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而 大 数据 实际 上 不 是 采样 ， 而 是 选用 全 量 数据 。 另 外 ， 我 们 过 去 采样 的 时 候 要 求 
个 体 数据 要 很 精确 ， 但 是 大 数据 可 以 允许 不 精确 ， 它 可 以 接受 混杂 性 ， 它 要 求 的 
是 有 效 性 。 还 有 一 个 特点 ， 过 去 做 数据 分 析 是 事先 提出 一 个 因果 假设 ， 然 后 收集 
数据 ， 通 过 分 析 来 验证 假设 ， 这 是 因果 关系 ; 但 大 数据 讲究 的 是 从 大 量 数据 中 找 
出 相关 关系 。 

其 次 ， 大 数据 时 代 思 维 模式 的 转变 。 大 数据 的 处 理 和 技术 发 展 到 今天 ， 仍 处 
于 “盲人 摸 象 ” 的 阶段 (图 1-19) 。 你 可 能 摸 到 的 是 “ 腿 ”， 他 可 能 描述 的 是 “ 鼻 
子 ”， 虽 然 正 确 但 都 是 局 部 ， 不 是 全 貌 。 随 着 大 数据 技术 的 不 断 进 步 和 越 来 越 多 
的 活 而 全 的 数据 源 ， 探 索 到 的 东西 也 将 无 限 逼 近 事实 与 真相 ， 也 越 能 获得 更 深 和 狗 
的 智慧 与 洞察 ， 也 就 体现 了 大 数据 真正 的 价值 。 


+ A Ty, 
se SS A 


1-19 ”大 数据 的 “盲人 摸 象 ”阶段 


4. 人 力 资源 大 数据 典型 应 用 


任何 一 个 组 织 ， 要 抓 住 大 数据 的 机 遇 ， 就 必须 做 好 几 方 面 的 工作 。 从 技术 角 
度 看 ， 首 先 ， 要 收集 并 且 开发 特定 的 工具 ， 来 管理 大 规模 并 行 服务 器 产生 的 结构 
化 和 非 结构 化 数据 ， 这 些 数据 ， 可 能 是 自己 专 有 的 ， 也 可 能 来 源 于 “ 云 ”。 其 次 ， 
每 一 个 组 织 都 需要 选 定 分 析 软 件 ， 用 它 来 挖掘 数据 的 意义 。 但 可 能 最 重要 的 是 ， 
任何 组 织 都 需要 人 才 来 管理 和 分 析 大 数据 。 这 些 人 被 称 为 “数据 科学 家 ”， 他 们 
集 黑 客 和 定量 分 析 员 的 优势 和 特长 于 一 身 ， 非 常 短缺 。 聪 明 的 领导 人 ， 将 想 方 设 
法 留 下 这 类 人 才 。? 


外 徐 子 沛 .大 数据 .桂林 : 广西 师范 大 学 出 版 社 . 2015. 
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不 少 的 公司 都 意识 到 这 难得 的 机 遇 ， 而 且 已 经 采取 了 行动 。 比 如 ， 通 用 电气 
将 投资 15 亿美 元 在 旧金山 湾 区 建立 一 个 全 球 软件 和 分 析 中 心 ， 作 为 全 球 研 发 机 
构 的 一 部 分 。 中 心 拟 雇佣 至 少 400 名 数据 科学 家 ， 现 在 已 经 有 180 位 到 位 。 通 用 
电气 在 全 球 拥 有 超过 1 万 名 工程 师 从 事 软件 开发 和 数据 分 析 工 作 。 通 过 共同 的 分 
析 平 台 、 训 练 、 领 导 力 培训 以 及 创新 ， 他 们 的 努力 得 以 协调 配合 。 通 用 电气 对 于 
大 数据 的 研究 活动 ， 相 当 一 部 分 集中 在 工业 产品 上 。 

(1) 百度 人 力 资源 大 数据 共享 信息 平台 

百度 的 人 力 资源 大 数据 共享 平台 已 经 迭代 到 3.0 版 本 , 从 人 才 管 理 \ 运 营 管理 、 
组 织 效 能 、 文 化 活力 、 与 情 分 析 等 ， 做 了 相应 的 指标 体系 建设 和 相应 的 建 模 ， 在 
这 之 上 完成 了 很 多 应 用 ， 比 如 BIEE、 个 人 全 景 、 用 户 画 像 等 ， 为 管理 层 的 人 才 
决策 提供 参考 与 建议 〈 详 见 第 五 章 ) 。 

(2) 人 才 雷 达 把 数据 挖掘 用 到 招聘 服务 

《大 数据 时 代 》 译 者 、 电 子 科 技 大 学 互联 网 科学 中 心 主任 周涛 创立 了 成 都 数 
之 联 科技 有 限 公司 ， 并 把 数据 挖掘 用 到 了 招聘 服务 领域 。 

人 才 雷 达 系 统 的 成 功 关 键 就 在 于 ， 受 邀 用 户 可 以 选择 绑 定 自己 的 LinkedIn、 
微 博 、 人 人 等 社交 网 络 账号 ， 让 人 才 雷 达 搜 索引 擎 自动 匹配 和 推荐 用 户 社交 网 络 
中 更 加 匹配 所 招 岗位 技能 要 求 的 人 才 ， 并 依照 契合 度 来 进行 推荐 排序 ， 每 一 位 被 
系统 列 出 的 推荐 者 头像 旁 都 会 展现 一 个 9 维 的 人 才 雷 达 图 ， 以 方便 招聘 官 挑选 ， 
这 正 是 “人 才 雷 达 ” 名 称 的 由 来 。 

其 核心 技术 是 人 才 搜 寻 模 型 和 匹配 算法 ， 通 过 对 被 推荐 者 邮箱 、 网 络 ID、 
Cookie 地 址 等 多 维度 身份 标识 的 匹配 ， 从 9 个 维度 来 判别 被 推荐 人 的 适合 程度 : 
职业 背景 、 专 业 影 响 力 、 好 友 匹 配 、 性 格 匹 配 、 职 业 倾向 、 工 作 地 点 、 求 职 意愿 、 
信任 关系 、 行 为 模式 。 

(3) e 成 科技 的 大 数据 招聘 服务 SaaS 平台 

e 成 科技 (上海 逸 橙 信息 科技 有 限 公 司 ) 组 建 于 2013 年 6 月 ， 是 全 国 领先 
的 一 站 式 大 数据 招聘 服务 平台 提供 商 ， 利 用 机 器 学 习 算法 、 数 据 挖掘 和 NLP ( 自 
然 语 言 处 理 ) 等 技术 提升 简历 与 岗位 的 匹配 效率 ， 激 活 企业 及 猎头 等 招聘 机 构 的 
闲置 简历 资源 ， 提 高 存量 简历 利用 率 ， 形 成 协同 共享 效应 ， 打 造 基于 算法 的 招聘 
服务 SaaS 平台 。 

目前 ， 由 。 成 科技 提供 的 大 数据 招聘 服务 包括 简历 搜索 、 基 于 企业 职位 的 个 
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性 化 推荐 、 人 脉 内 推 、 人 才 库 、 约 Ta， 以 及 包括 职位 BI 分 析 、 企 业 大 数据 画像 、 
人 才 地 图 在 内 的 多 项 数据 BI 服务 ， 帮 助 企 业 有 效 提高 招聘 资源 利用 率 ， 并 为 企 
业 人 力 资源 决策 提供 关键 性 参考 。 

(4) 上 海 联通 推出 人 力 资源 “管理 仪表 盘 ”? 

上 海 联通 面向 公司 管理 层 推出 人 力 资源 “管理 仪表 盘 ”， 采 用 定量 分 析 、 定 
期 推送 、 用 数字 说 话 的 方式 ， 建 立 可 视 化 报告 中 心 ， 提 高 数据 的 直观 性 及 易 读 性 。 
管理 仪表 盘 现 有 10 个 维度 、30 多 个 专题 ， 以 “图 形 一 数据 一 解读 ”的 形式 ， 为 
管理 层 直观 呈现 人 力 资源 管理 分 析 报 告 。 

以 效率 改善 为 前 提 、 以 质量 管控 为 目标 、 以 流程 重 构 为 核心 、 以 信息 系统 为 
载体 ， 面 向 员工 入 职 、 调 动 、 换 岗 、 退 出 等 基础 业务 探索 人 力 资源 数字 化 运营 管 
理 转 型 ( 表 1-6) 。 

表 1-6 ”人 力 资源 基础 业务 流程 数字 化 运营 


功能 
- ES 了 
引 7 
应 有 聘 信 息 表 填报 Se 多 业务 并 行 。 | 自动 触发 | 自动 生 
入 职 时 直接 导入 | 跨 部 门 流转 | 入 职 通知 | 成 报表 | 人 
背景 调查 
| 仿制 岗位 审核 | | 自动 触发 调 | 自动 生 | Xxx 
调 出 调 入 审批 | 忽 发 移交 流程 | 去 通 知 “| 成 报表 | 人 次 


换 疝 | 自动 校 验 编 制 | 在 线 签署 周 位 轴 | 自动 计算 汇 | 自动 生 | Xx x 
管理 自动 校 验 岗位 | 。 用 协议 。 | 报 变化 关系 | 成 报表 | 人 次 
退出 | HR 数据 中 心 | 离职 问卷 访谈 ho 自动 触发 离 | 自动 生 | Xxx 
EE i 有 Ll 1 
补充 信息 填报 | 国定 资产 盘点 | 二 号 及 二 时 | 职 通知 “| 成 报表 | 人 


(5) 京东 的 离职 预测 模型 


离职 预测 一 一 业务 建 模 。 通 过 2015 年 研发 员工 在 离职 数据 ， 预 测 2016 年 在 
职员 工 的 离职 倾向 ,根据 业务 场景 ， 选 择 三 个 机 器 学 习 模型 。 为 规避 过 度 拟 合 的 
问题 ， 基 于 业务 、 模 型 提炼 出 适合 京东 的 离职 预测 模型 (图 1-20) 。 


@ 备注 : 资料 来 源 于 e-HR2016 年 年 会 分 享 报告 . 


第 一 章 ”人 力 资源 大 数据 | 59 


三 交 @ 


1-20 京东 员工 离职 预测 模型 
离职 预测 一 一 落地 实践 。 数 据 结论 与 实践 业务 结合 ， 持 续 优化 了 p (图 121) 。 


数据 预警 


目 失 本 ,好 多 检 
i 反馈 四 收 到 提醒 ， 是 司 员 


1-21 ”数据 预警 指导 实践 


(6) 大 数据 预测 员工 心理 状态 趋势 ? 

计算 机 自主 学 习 的 强大 ， 在 于 无 止境 地 自我 完善 ， 具 有 无 与 伦比 的 适应 性 和 
自生 长 性 。 事 实 上 ， 在 分 类 或 趋势 预测 的 背后 ， 是 庞大 的 数据 演算 ， 建 模 和 预测 
的 过 程 包含 了 繁复 的 统计 过 程 ， 包 括 描述 统计 与 推断 统计 。 人 工 智 能 看 似 神秘 ， 
其 实 充斥 着 大 量 的 数学 计算 的 研究 过 程 。 在 人 才 发 展 方面 ， 人 工 智能 可 以 帮助 我 
们 预测 员工 的 心理 状态 趋势 ， 从 而 激发 员工 的 热情 。 

柯 塞 (BESTER》〉 中 国 合伙 人 胡 闻 斌 提 道 ， 柯 塞 曾 启 动 了 管理 环境 对 人 类 心 
理 的 影响 研究 ， 旨 在 寻找 那些 激发 员工 工作 热情 的 最 佳 管理 环境 方面 的 实践 。 目 
前 已 积累 了 3414 个 管理 环境 样本 ， 并 针对 每 个 样本 持续 采集 了 约 5 年 的 员工 心 


@ 柯 塞 .厉害 了 ，“ 大 数据 ”竟然 能 预测 员工 的 心理 状态 .培训 .2016.11. 
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理 及 行为 数据 ， 调 研 不 同 企业 所 采取 的 管理 战略 以 及 具体 的 执行 方案 。 通 过 运用 
人 工 智能 ， 进 行 了 大 量 的 建 模 和 验证 工作 ， 发 现 不 同 的 管理 方式 下 的 员工 心理 状 
态 变 化 趋势 ， 尤 其 是 工作 动机 ， 在 一 定 程度 上 都 是 可 预测 的 。 


大 数据 与 人 才 


2009 年 ，“ 大 数据 ”成 为 互联 网 信息 技术 行业 的 流行 词汇 ， 正 式 进 入 了 大 
众 的 视野 。2012 年 3 月 , 奥巴马 政府 宣布 投资 2 亿美 元 拉动 大 数据 相关 产业 发 展 ， 
将 “大 数据 战略 ”上 升 为 国家 战略 。 奥 巴 马 政府 甚至 将 大 数据 定义 为 “未 来 的 新 
石油 ”。2016 年 3 月 ， 我 国 将 大 数据 战略 纳入 “十 三 五 ”规划 。 

如 今 ， 大 数据 终于 迎 来 了 属于 它 的 时 代 。 大 数据 技术 已 趋 成 熟 ， 作 为 一 个 新 
学 科 ， 数 据 科学 方兴未艾 。 人 工 智能 的 应 用 必 将 把 智能 决策 推 向 新 的 高 度 。 


1. 人 才 成 测 肘 “ 


根据 我 们 的 观察 , 制约 大 数据 进一步 发 展 的 瓶颈 很 有 可 能 是 大 数据 人 才 不 足 。 
所 谓 “十 年 树木 、 百 年 树 人 ”， 人 才 培 养 有 其 自身 的 规律 ， 大 数据 领域 的 人 才 培 
养 也 不 可 能 脱离 这 种 规律 。 

什么 样 的 人 才 是 大 数据 人 才 呢 ? 可 以 从 大 数据 岗位 和 技能 需求 的 角度 进行 定 
义 和 分 类 。 第 一 类 当 属 数据 分 析 师 。 数 据 分 析 师 熟悉 大 数据 的 概念 和 原理 ， 具 有 
一 定 的 数理 和 统计 学 知识 ， 能 够 熟练 操作 和 使 用 数据 软件 和 工具 ， 他 们 工作 在 大 
数据 与 各 个 领域 结合 的 第 一 线 ， 例 如 女排 的 数据 分 析 师 圳 灵犀 就 要 既 懂 数据 又 懂 
排球 ， 二 者 缺 一 不 可 。 第 二 类 是 数据 工程 师 。 数 据 工程 师 应 该 能 够 开发 和 搭建 数 
据 平 台 和 应 用 ， 并 且 熟 悉数 据 挖掘 的 流程 和 原理 ， 为 大 数据 技术 应 用 在 各 个 领域 
提供 解决 方案 。 第 三 类 是 数据 科学 家 。 数 据 科 学 家 需要 熟悉 各 种 大 数据 技术 的 原 
理 和 相对 的 优 和 劣势， 合理 利用 各 种 技术 来 设计 大 数据 平台 的 架构 ， 根 据 数据 挖掘 
的 使 用 需求 和 商业 理解 来 设计 和 开发 算法 。 

为 了 便于 大 家 理解 ， 我 们 可 以 用 航空 工业 中 的 各 类 人 才 做 个 类 比 : 数据 分 析 
师 类 似 于 飞行 员 ; 数据 工程 师 类 似 于 飞机 生产 制造 和 维护 人 员 ; 而 数据 科学 家 则 


Q@ 黄 秋 钧 , 王 通讯 .大 数据 产业 莫 让 人 才 拖 后 腿 . 光明 日 报 .2016 年 11 月 8 日 . 
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类 似 于 飞机 设计 人 员 。 遥 想 当 年 ， 莱 特 兄弟 发 明 飞 机 的 时 候 ， 他 们 二 人 既是 设计 
者 又 是 制造 者 和 飞行 员 ， 但 现在 这 是 三 个 完全 不 一 样 的 岗位 类 型 。 随 着 大 数据 技 
术 的 成 熟 ， 大 数据 人 才 的 划分 也 会 经 历 类 似 的 过 程 。 


2. 培养 周期 长 


现在 大 数据 工程 师 和 大 数据 科学 家 之 间 的 界限 还 很 模糊 ， 不 过 数据 分 析 师 已 
经 逐渐 分 离 了 出 来 。 正 如 我 们 不 需要 飞行 员 也 能 够 制造 飞机 一 样 ， 数 据 分 析 师 相 
对 于 其 他 两 者 培养 起 来 要 容易 一 些 。 但 是 不 同 的 飞机 和 不 同 的 飞行 场景 对 飞行 员 
有 不 同 的 要 求 ， 数 据 分 析 师 在 不 同 领域 的 技能 要 求 也 不 完全 一 样 ， 总 的 说 来 ， 使 
用 越 复杂 的 数据 应 用 和 工具 越 需要 数据 分 析 师 掌握 更 多 的 数据 知识 和 技能 。 

如 今 ， 任 何 大 数据 平台 的 搭建 和 维护 都 需要 成 建制 的 数据 工程 师 和 数据 科学 
家 。 过 去 两 年 间 每 年 有 数 十 个 大 数据 平台 在 启动 和 搭建 ， 这 就 在 短 时 间 内 形成 了 
对 数据 工程 师 和 数据 科学 家 的 巨大 需求 ， 而 在 大 数据 人 才 的 供应 特别 是 高 端 人 才 
供应 方面 则 受到 人 才 保有 量 不 足 和 人 才 培 养 周 期 长 的 制约 。 如 果 我 们 从 大 学 入 学 
开始 计算 ， 加 上 软件 开发 和 数据 算法 建 模 等 方面 工作 经 验 的 形成 ， 培 养 一 个 合格 
的 数据 工程 师 和 数据 科学 家 至 少 需要 5 年 到 10 年 的 时 间 。 

当前 一 个 明显 的 事实 是 ， 大 数据 人 才 培 养 速度 明显 低 于 大 数据 发 展 和 应 用 的 
速度 。 据 调查 ， 尽 管 全 国 50% 的 大 数据 人 才 集 中 在 北京 ， 但 是 北京 的 互联 网 公 
司 仍 然 普遍 遇 到 了 合格 的 大 数据 人 才 “ 招 聘 难 ”和 “ 留 人 难 ” 的 问题 。 


3. 先 下 手 为 强 


大 数据 产业 兴起 于 美国 。 美 国 现在 正 遭 遇 的 “大 数据 人 才 荒 ”及 其 采取 的 应 
对 措施 ， 可 以 给 我 们 诸多 启发 和 借鉴 。 

例如 ， 大 数据 人 才 在 领 英 〈LinkedIn) 和 玻璃 门 (Glassdoor) 等 人 力 资源 和 
招聘 网 站 长 期 处 于 供不应求 的 状态 。 麦 肯 锡 咨询 研究 指出 , 到 2018 年 仅仅 在 美国 
大 数据 人 才 短缺 就 到 达 50% ~ 60%。 今 日 美国 和 彭 博 社 等 媒体 一 致 认为 ， 大 数 
据 人 才 短 缺 的 问题 短期 内 只 会 加 剧 而 不 会 缓解 。 自 从 2011 年 麦肯锡 报告 预测 美 
国 到 2018 年 将 会 有 14 万 ~ 19 万 数据 分 析 人 才 短 缺 后 ， 美 国 各 类 大 学 都 争先 恐 
后 地 开设 与 数据 科学 有 关 的 课程 (包括 大 数据 技术 、 商 业 智 能 、 数 据 分 析 、 人 工 
智能 等 ) 和 专业 。 比 如 ， 北 卡 公 立 大 学 早 在 2007 年 就 先知 先觉 地 设立 了 数据 分 
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析 硕 士 项 目 ，2016 年 该 项 目 毕业 生 的 就 业 率 达 到 了 100%， 而 且 平均 年 薪 达 到 了 
10 万 美元 左右 。 该 项 目 从 2007 年 到 现在 的 毕业 生 人 数 已 经 达到 了 100 多 人 。 然 而 ， 
同 美国 教育 界 全 力 开动 起 来 培养 的 人 才 数 量 和 大 数据 快速 发 展 所 需要 的 人 才 数 量 
相 比 ， 仍 然 是 杯水车薪 。 

可 以 预见 ， 在 未 来 世界 ， 国 家 之 间 、 区 域 之 间 甚 至 是 公司 之 间 的 大 数据 人 才 
争夺 战 将 会 愈演愈烈 。 有 鉴于 此 ， 建 立 中 国 的 大 数据 人 才 平台 ， 对 大 数据 人 才 问 
题 进 行 超前 研究 ， 并 且 未 雨 绸 绷 ， 加 大 人 才 培 养 和 引进 的 力度 ， 应 该 引起 领导 者 
与 人 才 规 划 部 门 更 多 的 重视 。 


道 及 技术 方法 


大 数据 挖掘 渠 
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第 2 


一 机 


大 数据 的 取得 与 整理  ) 


所 谓 大 数据 是 我 们 进入 大 数据 时 代 之 后 所 面 对 的 一 个 现实 的 数据 世界 : 海 
量 的 数据 ， 数 据 量 还 在 加 速 增长 ， 而 且 数 据 形态 各 异 ， 质 量 参差 不 齐 。 不 过 好 
的 方面 是 ， 这 些 数 据 中 蕴藏 着 巨大 的 价值 ， 发 现 这 些 价值 的 过 程 就 是 知识 发 现 
(Knowledge Discovery in Database，KDD) ， 这 个 过 程 的 终极 目标 是 让 数据 规则 
有 序 地 组 织 起 来 ， 既 有 哲学 的 美感 又 有 数学 的 优雅 ， 然 后 在 这 个 坚实 的 数据 基石 
上 构建 信息 、 知 识 和 智慧 的 摩天 大 厦 。 理 想 很 丰满 ， 现 实 很 骨 感 。 要 实现 这 一 目 
标 并 不 容易 ， 需 要 有 效 的 方法 和 工具 ， 这 就 是 我 们 下 面 要 谈 的 大 数据 技术 。 

数据 量 的 积累 是 一 个 量变 到 质变 的 过 程 ， 这 个 过 程 早 在 2012 年 之 前 就 已 经 
开始 ， 只 是 在 2012 年 跨 过 了 质变 的 节点 ， 而 且 现 在 得 到 广泛 应 用 的 大 数据 科技 
大 都 可 以 追溯 到 大 数据 时 代 到 来 之 前 。 这 些 科 技 的 诞生 和 发 展 凝聚 了 先驱 者 大 量 
的 智慧 和 心血 ， 大 数据 时 代 到 来 之 后 ， 这 些 人 的 贡献 被 更 多 人 熟知 ， 现 在 数据 领 
域 里 的 专业 人 才 有 了 一 个 特定 的 名 称 : 数据 科学 家 。 

能 够 笑 看 风云 起 ， 在 数据 的 海洋 上 乘风破浪 ， 数 据 科 学 家 需要 有 内 外 兼 修 的 
功夫 和 称 手 的 兵器 。 接 下 来 我 们 阐述 数据 科学 家 必 备 的 看 家 本 领 。 


国 风 数据 收集 


1. 获取 数据 
大 数据 时 代 难 道 会 缺 数据 ? 会 也 不 会 。 会 是 因为 大 数据 时 代 的 原始 数据 是 泥 
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沙 俱 下 的 漫天 洪水 ， 而 我 们 想 要 的 是 可 以 饮用 的 一 泓 清泉 。 之 所 以 不 会 ， 是 因为 
通常 情况 下 数据 科学 家 都 会 有 办 法 。 

数据 科学 家 需要 对 大 数据 原始 数据 的 来 源 和 构成 了 然 于 胸 。 从 数据 产生 角度 ， 
现 阶段 大 数据 的 几 大 数据 源 包括 : 

(1) 内 容 数 据 : 主要 来 自 网 络 和 社交 数据 。 泛 社交 网 络 生成 的 文本 、 音 频 
和 视频 等 数据 ， 随 着 3D 游戏 、 视 频 直 播 和 虚拟 现实 等 应 用 的 普及 ， 这 一 类 型 数 
据 的 数据 量 还 会 快速 增加 。 

(2) 观测 数据 : 主要 来 自 探 测 器 和 机 器 生成 数据 。 由 传感器 记录 的 各 种 数据 ， 
包括 科学 实验 的 数据 、 工 程 测量 的 数据 ， 甚 至 包括 生活 中 使 用 的 智能 穿戴 设备 记 
录 的 数据 。 以 天 气 预 报 为 例 ， 分 布 在 各 处 的 气象 站 有 大 量 的 传感器 在 采集 各 种 气 
象 数据 ， 包 括 温度 、 湿 度 、 风 向 和 风速 等 ， 从 这 些 数据 中 抽取 出 有 价值 的 信息 进 
行 分 析 才 有 可 能 相对 准确 地 预测 未 来 的 天 气 。 所 有 的 科学 和 工程 领域 都 有 大 量 的 
传感器 数据 生成 ， 对 这 一 类 型 数据 的 收集 和 使 用 是 一 个 非常 重要 的 课题 。 其 中 科 
学 观察 产生 的 数据 量 可 能 会 超出 大 部 分 读者 的 想象 ， 比 如 高 能 粒子 对 撞 机 、 受 控 
核 聚 变 装置 和 射电 望远镜 等 都 会 产生 大 量 的 观察 数据 ， 这 些 设 备 每 天 可 以 轻松 的 
产生 PB (Petabytes) 量 级 以 上 的 数据 。 

(3) 用 户 数据 ;以 用 户 为 中 心 集成 的 数据 。 包 括 用 户 个 体 识 别 〈Biometrics) 
和 用 户 行为 数据 ， 例 如 人 脸 识 别 、 指 纹 识 别 、 用 户 浏 览 记 录 ， 用 户 消费 记录 和 用 
户 信用 记录 等 。 

(4) 业务 数据 : 主要 来 自 于 各 种 信息 系统 ， 包 括 股票 交易 数据 ， 物 流 数 据 
和 商品 销售 数据 等 ， 最 典型 的 例子 是 电 商 平台 产生 的 交易 数据 。 


2. 收集 数据 


以 数据 源 的 状态 不 同 ， 大 数据 技术 在 应 用 过 程 中 对 数据 源 的 使 用 主要 呈现 两 
种 状态 。 

第 一 类 ， 稳 定 的 数据 源 能 够 提供 充足 的 数据 。 这 种 情况 在 IT 行业 内 部 比较 
普遍 ， 数 据 在 每 时 每 刻 不 断 地 大 量 地 生成 ， 比 如 互联 网 平台 的 日 志 数据 ， 又 如 电 
商 平台 的 交易 记录 等 ， 因 此 如 何 使 用 大 数据 技术 快速 有 效 地 处 理 这 些 数据 是 问题 
的 关键 。 

第 二 类 ， 先 确定 了 大 数据 分 析 要 达到 的 目的 或 者 要 解决 的 问题 ， 根 据 确定 的 
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商业 理解 来 构建 算法 和 数据 模型 ， 然 后 再 回溯 获取 所 需 的 数据 。 当 大 数据 技术 与 
其 他 行业 相 结 合 时 ， 这 种 情况 就 比较 常见 ， 例 如 在 人 力 资源 领域 里 面 要 用 大 数据 
技术 分 析 某 一 类 型 岗位 的 需求 度 ， 就 需要 行业 和 不 同 公司 提供 这 一 类 型 岗位 所 需 
的 知识 背景 、 能 力 技能 和 健康 状态 等 方面 的 数据 。 而 且 随 着 算法 模型 逐渐 演化 得 
更 复杂 ， 需 要 补充 更 多 更 全 面 的 数据 。 

根据 大 数据 技术 应 用 的 经 验 ， 获 取 和 补充 数据 对 于 大 多 数 非 IT 领域 在 应 用 
大 数据 过 程 中 是 必 不 可 少 的 。 这 些 数据 的 获取 通常 有 几 种 来 源 和 方法 。 第 一 ， 从 
互联 网 获得 。 例 如 需要 获取 数据 来 建立 行业 基准 ， 通 过 疏 虫 程序 从 互联 网 上 抓 取 
数据 是 一 个 有 效 的 方法 。 优 点 是 实现 成 本 不 高 ， 自 动 化 和 智能 化 程度 可 以 不 断 
提升 ， 能 够 在 短 时 间 内 获取 大 量 的 数据 。 缺 点 是 获取 的 数据 良 劳 不 齐 ， 品 音 高 ， 
需要 花 大 量 的 时 间 和 精力 进行 辨别 和 清洗 。 第 二 ， 从 现 有 的 软件 和 工具 获得 。 大 
中 型 企业 大 多 有 内 部 管理 软件 ， 例 如 企业 资源 计划 系统 (ERP) ， 客 户 关 系 管理 
软件 (CRM) 和 人 力 资源 管理 (HRM) 等 ; 小 企业 可 能 更 多 的 使 用 Microsoft 的 
Excel 和 Access。 这 一 类 型 的 数据 质量 较 高 ， 可 以 持续 地 集成 到 大 数据 平台 ， 并 
且 能 够 反映 每 个 企业 最 真实 的 状态 。 缺 点 是 数据 量 有 限 ， 扩 展 困难 。 在 实际 应 用 
过 程 ， 通 常 把 以 上 两 种 方法 配合 起 来 使 用 ， 如 果 数 据 量 不 足以 支撑 深层 次 的 数据 
挖 气 ， 还 需要 与 管理 制度 相 结 合 逐 渐 按 照 规范 充实 数据 。 

在 数据 收集 的 过 程 中 ， 数 据 科 学 家 有 一 个 强大 而 有 效 的 武器 ， 那 就 是 仆 虫 技 
术 (Web Crawler) 。 网 络 爬 虫 又 被 称 为 网 页 蜂 蛛 或 是 网 络 机 器 人 。 网 络 爬 虫 可 
以 系统 性 和 持续 性 地 从 互联 网 上 获取 数据 。 网 络 爬 虫 根据 其 实现 技术 的 不 同 功能 
各 有 强 弱 。 最 新 的 网 络 爬 虫 使 用 了 大 数据 存储 和 计算 技术 ， 完 全 可 以 被 称 为 网 络 
巨 兽 ， 可 以 把 互联 网 上 的 数据 鲸 知 而 下 ， 而 且 永远 不 满足 ， 如 同 传说 中 的 神兽 网 
警 一般， 你 所 熟知 的 搜索 引擎 ， 例 如 百度 和 Google 的 背后 都 有 一 个 这 样 的 网 络 
巨 兽 。 


数据 存储 


收集 起 来 的 数据 该 如 何 存储 以 备 后 续 使 用 呢 ? 在 大 数据 时 代 之 前 ， 通 常 使 用 
关系 型 数据 库 进 行 数据 存储 ， 但 是 现在 关系 型 数据 库 已 经 越 来 越 无 法 满足 实际 使 
用 的 需求 。 为 了 面 对 这 些 挑战 新 的 数据 库 技术 正 不 断 地 被 研发 出 来 。 总 体 来 说 ， 
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大 数据 数据 库 需 要 达到 三 个 标准 (3H) : 
1. 高 性 能 ( High Performance ) 


满足 对 大 规模 数据 的 读 写 和 检索 的 需求 。 对 于 拥有 大 量 用 户 的 互联 网 应 用 ， 
满足 用 户 同 时 访问 带 来 高 并 发 是 一 个 挑战 。 网 络 访问 如 同 交通 一 般 ， 如 果 大 量 用 
户 同时 访问 就 类 似 于 上 下 班 的 通勤 高 峰 期 容易 形成 交通 堵塞 。 


2. 高 存储 量 ( Huge Storage ) 


满足 对 海量 数据 的 高 效率 存储 和 访问 的 需求 。 计 算 机 应 用 为 了 把 数据 保存 起 
来 会 把 数据 写 入 硬盘 中 ， 这 一 过 程 被 称 为 持久 化 。 互 联网 上 ， 每 时 每 刻 都 有 大 量 
的 数据 被 写 入 硬盘 保存 起 来 ， 根 据 使 用 场景 不 同 ， 数 据 会 被 保存 在 硬盘 上 不 同类 
型 的 数据 库 。 随 着 大 数据 时 代 的 来 临 ， 满 足 大 数据 使 用 场景 的 新 型 数据 库 在 不 断 
地 被 创造 出 来 ， 而 且 还 在 不 断 地 改进 和 优化 。 数 据 在 不 断 地 增长 ， 而 这 些 数据 库 
像 哆 获 一 样 把 数据 源源 不 断 地 吃 进去 。 


3. 高 扩展 性 和 高 可 用 性 ( High Scalability and High Availability ) 


在 大 数据 时 代数 据 增长 的 速度 往往 超出 人 们 的 预期 ， 如 果 数 据 库 在 使 用 一 段 
时 间 之 后 达到 存储 极限 之 后 就 需要 扩展 。 现 有 的 大 数据 技术 通常 使 用 集群 技术 来 
实现 扩展 ， 这 样 做 的 好 处 是 会 尽量 减少 对 原 有 业务 和 架构 的 影响 ， 与 此 同时 ， 采 
用 集群 的 方式 可 以 方便 地 实现 数据 分 布 式 存储 和 宛 余 机 制 : 把 同一 数据 存储 在 不 
同 的 节点 上 ， 即 使 个 别 节点 的 数据 损坏 ， 仍 然 可 以 通过 其 他 节点 得 到 恢复 ， 以 此 
获得 更 高 的 数据 可 用 性 和 可 靠 性 。 

这 些 新 兴 的 数据 库 成 为 了 数据 科学 家 手中 的 重要 武器 ， 现 在 被 统称 为 
NoSQL。 之 所 以 被 称 为 NoSQL， 是 因为 在 大 数据 技术 兴起 之 前 ， 主 流 的 数 
据 库 为 关系 数据 库 。 关 系数 据 库 使 用 结构 化 查询 语言 SQL (Structured Query 
Language) 作为 操作 语言 ， 因 此 SQL 数据 库 一 定 程度 上 也 代 指 关系 数据 库 。 在 
此 之 后 ， 满 足 大 数据 应 用 场景 发 展 出 来 的 数据 库 被 统称 为 NoSQL 数据 库 (Not 
Only SQL) ， 以 示 与 传统 的 关系 数据 库 的 区 别 。 虽 然 被 统称 为 NoSQL 数据 库 ， 
但 是 因为 大 数据 技术 的 应 用 场景 十 分 广泛 , NoSQL 数据 库 发 展 出 了 不 同 的 类 别 。 
到 目前 为 止 ， NoSQL 数据 库 主 要 分 为 4 类 ， 分 别 是 键 值 数据 库 、 列 族 数据 库 、 
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文档 数据 库 和 图 数据 库 。 这 些 不 同 的 数据 库 设 计 理 念 不 同 ， 而 且 在 不 同 的 方面 各 
有 长 短 ， 可 以 适用 于 不 同 的 使 用 场景 。 一 个 好 的 数据 科学 家 可 以 把 这 些 数据 库 包 
括 传统 的 关系 数据 库 配合 起 来 使 用 ， 通 过 取长补短 实现 最 优化 ， 这 一 方式 在 业内 
被 称 为 混合 持久 化 。 


延伸 阅读 | 


数据 库 与 混合 持久 化 


NoSQL 数 据 库 与 混合 持久 化 2 
数据 库 的 价值 在 于 持久 存储 大 量 数据 。 在 NoSQL 出 现 之 前 ， 关 


” 系 型 数据 库 具有 绝对 的 统治 地 位 ， 关 系 型 数据 库 的 优势 在 于 提供 了 


一 套 近 乎 标准 的 关系 模型 ,而且 还 被 不 同 的 关系 型 数据 库 厂商 共同 
遵守 : 数据 库 语 言 相似 而 且 事务 (tansaction ) 的 操作 方式 也 相似 。 
关系 型 数据 库 对 于 事务 的 支持 保证 了 对 数据 操作 的 严格 和 整个 数据 
库 的 一 致 性 ， 即 使 操作 过 程 中 出 现 差错 也 可 以 使 用 回 滚 (roll back ) 
这 一 事务 回 到 之 前 的 数据 状态 。 关 系 型 数据 库 支撑 了 信息 系统 的 发 
展 并 成 为 其 不 可 或 缺 的 一 部 分 。 

不 过 关系 型 数据 库 并 非 没 有 缺陷 。 在 2000 一 2009 年 之 间 ， 由 于 
互联 网 的 崛起 ， 数 据 规 模 迅 速 增加 促使 很 多 公司 必须 使 用 计算 机 集 
群 来 存储 数据 ， 但 是 关系 型 数据 库 并 不 适合 构建 集群 ， 因 为 从 一 开 
始 它 就 不 是 为 此 而 设计 的 。 即 使 一 些 关 系 型 数据 库 提供 商 提供 了 关 
系 型 数据 库 的 集群 方案 ， 但 这 些 方案 通常 都 相当 昂贵 。 很 大 程度 上 
NoSQL 的 出 现 就 是 为 了 弥补 这 一 缺陷 ， 大 部 分 NoSQL 数 据 库 设计 的 
初衷 就 是 为 了 在 集群 上 运行 。 

NoSQL 数 据 库 的 共同 特征 包括 : 不 使 用 关系 模型 、 在 集群 上 运 
行 良 好 、 无 模式 和 适合 互联 网 应 用 场景 。NoSQL 数 据 库 主要 包括 了 
键 值 数 据 库 、 列 族 数 据 库 、 文 档 数据 库 和 图 数据 库 。 

键 值 数据 库 代 表 : redis、riak、Memcashed、BerkeleyDB 等 。 

列 族 数 据 库 代表 : Hbase、Cassandra、Amazon SimpleDB、 


© NoSQL Distilled: A Brief Guide to the Emerging World of Polyglot Persistence, Pramod J Sadalage 
and Martin Fowler. 
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HyperTable 等 。 

文档 数据 库 代表 : mongodb、CouchDB 、OrientDB 、RavenDB 等 。 

图 数据 库 代 表 : Neo4j、FlockDB 、HyperGraphDB 、Infinite 
Graph 等 。 

关系 型 数据 库 会 因此 而 消亡 吗 ? 不 会 。 因 为 NoSQL 的 出 现 并 不 
是 为 了 替代 关系 型 数据 库 ， 而 是 为 了 满足 互联 网 环境 下 多 样 的 使 用 
场景 ， 即 使 是 NoSQL 内 部 不 同类 型 的 数据 库 都 有 着 明显 的 差别 ， 因 
此 最 好 的 办 法 就 是 使 用 不 同 的 数据 库 去 解决 不 同 的 问题 ， 而 这 就 是 
“混合 持久 化 ”的 核心 思想 。 以 电子 商务 平台 为 例 ， 一 种 可 能 的 解决 
方案 是 : 使 用 关系 型 数据 库 保存 客户 的 基础 数据 和 产品 以 及 库存 的 数 
据 ; 使 用 键 值 数 据 库 保存 session 和 购物 车 数据 ; 使 用 文档 数据 库 来 保 
持 以 及 完成 的 订单 ; 使 用 图 数据 库 来 保存 客户 关系 图 和 产品 关系 图 。 


数据 计算 


1. 原理 与 方法 


仅仅 实现 数据 存储 是 远 远 不 够 的 ， 数 据 的 存储 与 数据 计算 紧密 相连 。 对 数据 
进行 任何 的 操作 都 会 涉及 同一 个 过 程 : 从 数据 存储 介质 中 获取 目标 数据 ， 把 读 取 
的 数据 传送 到 CPU 进行 计算 ， 然 后 CPU 把 计算 的 结果 数据 保存 到 数据 存储 介质 
中 。 在 数据 处 理 的 过 程 中 这 一 过 程 会 不 断 地 反复 发 生 ， 在 日 常生 活 中 使 用 个 人 电 
脑 的 时 候 因为 数据 规模 有 限 ， 所 以 这 一 过 程 的 每 个 步骤 在 大 多 数 情况 下 都 会 在 几 
乎 人 类 感官 无 法 察觉 的 时 间 尺 度 中 完成 。 例 如 ， 当 你 打开 日 历 应 用 ， 记 录 下 某 个 
重要 事项 ， 然 后 单 击 “ 保 存 ” 按 钮 ， 在 这 之 后 的 一 瞬间 整个 计算 和 存储 过 程 就 
已 经 完成 了 。 但 是 ， 当 数据 规模 变 得 越 来 越 大 ， 这 一 过 程 的 每 个 步骤 所 耗费 的 时 
间 会 迅速 增加 。 不 同 的 数据 存储 介质 的 读 写 速度 会 有 很 大 的 差别 。 即 使 是 固态 硬 
盘 现在 的 数据 读 取 速 度 可 以 达到 5GB 每 秒 〈 大 约 5000MB 每 秒 ) ， 要 读 取 一 个 
4TB 硬盘 的 所 有 数据 就 需要 13 分 钟 ， 写 入 数据 的 速度 则 会 更 慢 。? 


©@ https://www.intel.com/content/www/us/en/products/memory-storage/solid-state-drives/data-center- 
ssds/dc-p3608-series/dc-p3608-4tb-aic-20nm html. 
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4TB 数据 在 大 数据 时 代 只 能 算是 沧海 一 票 ， 但 是 13 分 钟 这 个 时 间 尺 度 对 于 
任何 互联 网 应 用 而 言 都 是 灾难 。 几 乎 不 会 有 用 户 会 有 如 此 的 耐心 ， 超 过 1 秒 的 等 
待 时 间 都 会 影响 到 用 户 体验 。 在 计算 机 发 展 史上 ， 因 为 计算 机 的 计算 能 力 有 限 
很 多 超前 的 想法 最 终 都 停留 在 了 理论 层面 没有 取得 突破 。 不 管 是 科技 层面 还 是 商 
业 层 面 ， 获 取 更 大 的 计算 能 力 长 期 以 来 一 直 是 计算 机 科学 的 努力 方向 。 虽 然 ， 计 
算 机 的 计算 能 力 一 直 以 来 都 在 提升 ， 但 是 数据 计算 的 需求 也 在 不 断 增加 ， 特 别 是 
在 大 数据 时 代 这 种 需求 更 是 在 爆发 性 地 增长 。 

读者 应 该 已 经 设身处地 地 体会 到 这 个 难题 的 本 质 了 : 庞大 的 数据 集 和 计算 效 
率 之 间 的 了 矛盾。 我们 举 一 个 直观 的 例子 ， 想 象 一 下 ， 你 是 一 名 学 校 的 老师 ， 在 一 
次 考试 完成 之 后 有 1000 份 试卷 需要 批改 ， 三 天 之 内 需要 完成 ， 但 是 一 个 人 每 天 
最 多 只 能 批改 100 份 试卷 ， 怎 么 办 ? 一 个 可 能 的 解决 方案 就 是 : 把 1000 份 试卷 
分 派 给 10 名 老师 ， 每 人 100 份 ， 一 天 的 时 间 可 以 把 所 有 的 试卷 批改 完成 。 第 二 
天 花 少 量 的 时 间 就 可 以 把 所 有 的 试卷 汇总 ， 还 会 有 余下 的 时 间 休息 。 

让 我 们 把 这 个 问题 抽象 并 简化 为 计算 机 领域 的 问题 : 数据 规模 和 时 间 限 制 明 
确 的 情况 下 , 如 何 满足 计算 的 需求 ? 要 实现 这 一 目标 唯 有 提供 更 多 的 资源 , 例如 : 
一 台 计 算 机 无 法 完成 ， 需 要 计算 机 集群 来 完成 《对 应 上 面 例子 中 的 人 数 增加 ) 。 
通过 增加 计算 资源 来 满足 时 间 限 制 被 证 明 是 一 个 行 之 有 效 的 办 法 ， 毕 竟 计 算 机 的 
价格 越 来 越 便宜 ， 这 一 点 正 是 摩尔 定律 的 反映 。 

这 个 解决 问题 方案 的 核心 是 把 一 个 大 的 任务 分 解 成 为 多 个 可 并 行 解决 的 小 任 
务 来 执行 ， 在 每 个 小 任务 完成 之 后 再 进行 汇总 。 把 小 的 任务 进行 汇总 会 产生 额外 
的 负担 和 时 间 消 耗 ， 但 是 相 比 于 在 处 理 巨大 数据 集 时 分 布 与 并 行 运算 所 节约 的 时 
间 ， 这 样 的 消耗 已 经 显得 微不足道 。 

这 个 解决 方案 的 本 质 是 用 空间 换 时 间 。 

到 目前 为 止 ， 这 个 方法 是 不 是 听 起 来 还 不 错 ， 剩 下 来 的 问题 是 ， 如 何 让 这 
些 计 算 机 有 条 不 亲 地 的 分 工 协作 ? MapReduce 就 是 为 解决 这 个 问题 而 生 的 。 
MapReduece 的 理论 最 开始 由 Google 研发 人 员 Jeffrey Dean 和 Sanjay Ghemawat 
在 论文 《MapReduce: Simplified Data Processing on large Clusters》 (MapReduce: 
在 大 型 计算 机 集群 上 的 简化 数据 处 理 ) 中 冰 述 。 呈 文中 提 到 MapReduce 思想 的 灵 


@ Dean, Jeffrey, and Sanjay Ghemawat“MapReduce: Simplified Data Processing on Large Clusters.” 
Communications of the ACM 51.1 (2008): 107. 
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感 来 源 于 函数 式 计 算 机 语言 的 内 置 函 数 Map (映射 ) 和 Reduce (规约 ) 。 

我 们 还 是 以 上 面 提 到 的 试卷 批改 的 例子 来 说 明 MapReduce 的 工作 原理 。 如 
果 要 从 这 1000 份 试卷 中 统计 出 及 格 的 人 数 ， 按 照 MapReduce 的 思想 可 以 把 1000 
份 试卷 平均 分 给 10 位 老师 ， 这 10 位 老师 在 MapReduce 的 理论 中 称 为 mapper。 
每 个 mapper 找到 自己 试卷 中 的 及 格 人 数 并 告诉 给 另 一 组 老师 ， 这 一 组 称 为 
reducer，reducer 把 得 到 的 各 个 组 的 及 格 人 数 进行 相 加 后 得 到 这 1000 份 试卷 中 总 
的 及 格 人 数 。 除 了 mapper 和 reducer 之 外 ， 还 有 主管 (main 或 者 master node) 
会 管理 mapper 和 reducer 之 间 的 协作 。 你 会 发 现 ， 在 正常 情况 下 ， 增 加 mapper 
和 reducer 的 数量 会 加 快 任务 完成 的 效率 。 事 实 上 我 们 的 大 数据 处 理 就 是 按照 这 
个 原理 来 操作 的 。 下 面 介绍 的 这 些 计 算 平 台 就 是 这 一 原理 的 具体 实现 ， 对 于 数据 
科学 家 来 说 这 是 必 不 可 少 的 武器 。 


2. Apache Hadoop 


Hadoop 是 MapReduce 思想 的 软件 实现 ， 而 且 是 开源 免费 的 。Hadoop 是 隶 
属于 Apache 基金 会 的 项 目 ， 由 Java 语言 编写 。Hadoop 不 仅 实现 了 MapReduce 
的 分 布 式 计算 ， 而 且 还 自 带 分 布 式 文件 系统 HDFS (Hadoop Distributed File 
System) 。 通 过 Hadoop 可 以 方便 地 对 计算 机 集群 进行 管理 和 协调 ， 来 进行 分 布 
式 计算 , 同时 对 数据 进行 有 效 的 存储 , 而 且 开发 者 不 需要 涉及 分 布 式 底 层 的 细节 。 
因为 这 一 系列 的 优点 ，Hadoop 在 业界 得 到 了 广泛 的 应 用 。 

Hadoop 诞生 于 2006 年 ， 最 开始 是 搜索 引擎 项 目 Apache Nutch 的 子 项 目 ， 
但 很 快 同 年 就 作为 了 一 个 单独 的 项 目 独 立 了 出 来 ，Yahoo 最 先 应 用 和 部 署 了 
Hadoop 计算 机 集群 ， 并 对 Hadoop 进行 了 持续 的 优化 ， 发 展 出 众多 的 子 项 目 ， 
使 Hadoop 成 为 了 一 个 越 来 越 完善 和 强大 的 系统 。 在 2008 年 6 月 ，Yahoo 的 一 个 
Hadoop 集群 赢得 了 太 字 节 (TeraByte〉 排 序 竞 赛 的 冠军 ， 以 209 秒 的 成 绩 创造 了 
当时 新 的 世界 纪录 ， 这 是 有 史 以 来 第 一 次 开源 项 目 ， 也 是 第 一 次 Java 项 目 获 此 
殊荣 ，Hadoop 一 战 成 名 ， 在 业界 得 到 了 广泛 的 应 用 ， 很 长 一 段 时 间 内 Hadoop 其 
至 成 为 了 大 数据 平台 的 代名词 。 

Hadoop 这 个 名 字 有 些 特 立 独行 , 既 不 是 现 有 的 英文 单词 , 也 不 是 单词 的 缩写 ， 
而 是 虚构 的 。Hadoop 项 目的 创建 者 一 一 Doug Cutting 从 他 的 孩子 那里 “窃取 ”了 
这 个 名 字 。 他 的 孩子 给 一 个 棕 黄色 大 象 玩 具 命名 为 Hadoop，Doug Cnutting 就 借用 
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了 这 个 名 字 命 名 了 自己 的 “玩具 ”。 上 毕竟 Doug Cutting 创建 了 Lucene、Nutch 和 
Hadoop 等 深刻 改变 了 我 们 世界 的 项 目 ， 有 时 候 有 点 小 调皮 也 无 可 厚 非 。 

Hadoop 已 经 发 展 成 为 了 具有 多 个 子 项 目的 生态 系统 ， 但 其 核心 一 直 是 
HDFS 和 MapReduce。HDFS 实现 数据 的 存储 ， 而 MapReduce 实现 对 数据 的 计算 
和 处 理 。HDFS 可 以 存储 超大 规模 PB 级 的 文件 ， 这 些 文件 的 大 小 甚至 超过 通常 
的 单一 存储 介质 的 容量 。HDFS 会 把 超大 规模 文件 切 分 成 一 个 个 数据 块 (block) ， 
然后 把 数据 块 保存 到 不 同 的 磁盘 上 。 这 样 既 降低 了 对 存储 介质 的 要 求 ， 也 提升 了 
容错 能 力 。Hadoop 会 协调 HDFS 和 MapReduce 之 间 的 工作 能 够 在 HDFS 存储 数 
据 的 节点 上 运行 map 任务 ， 使 计算 在 本 地 进行 。 各 个 节点 mapper 的 计算 结果 汇 
总 到 reduce 端 。Reduce 计算 之 后 最 终结 果 再 通过 HDFS 进行 存储 。 


3. Apache Spark 


Spark 在 2009 年 诞生 于 伯克利 大 学 的 AMP 实验 室 (University of California 
Berkeley's AMP Lab) 。2010 成 为 开源 项 目 ， 并 于 2013 年 被 捐献 给 Apache 软件 
基金 会 。 虽 然 是 后 起 之 秀 ， 但 相 比 于 Apache Hadoop，Apache Spark 有 几 个 方面 
的 优势 。 

首先 ， 快 速 。 所 谓 “ 天 下 武功 ， 唯 快 不 破 ”， 在 大 数据 时 代 更 快 的 数据 处 
理 速度 无 疑 是 所 有 大 数据 平台 都 在 不 断 追 求 的 力量 源泉 。Apache Spark 的 口号 是 
闪电 般 迅 速 的 集群 运算 ， 因 为 能 够 更 好 地 使 用 内 存 和 磁盘 ，Apache Spark 的 处 理 
速度 可 以 比 Apache Hadoop 快 10 倍 到 100 倍 。 然 后 ， 易 用 ，Apache Spark 虽然 
是 用 Scala 编写 ， 但 是 可 以 用 Scala 语言 ，Pyhton 语言 和 Java 语言 ， 甚 至 是 及 语 
言 进行 操作 。 数 据 算 法 的 编写 一 直 是 Python 语言 和 及 语言 的 传统 领地 ，Apache 
Spark 能 够 进行 多 语言 的 灵活 兼容 无 疑 为 数据 科学 家 进行 算法 编写 和 测试 提供 了 
极 大 的 方便 。 最 后 ， 通 用 ，Apache Spark 搭建 集群 既 能 够 独立 完成 ， 又 能 够 通过 
Apache Hadoop Yarn 或 是 Apache Mesos 来 实现 。“ 有 容 乃 大 ”， 良 好 的 兼容 性 
让 Apache Spark 快速 崛起 。 

Apache Hadoop 和 Apache Spark 是 目前 最 有 代表 性 和 使 用 最 广泛 的 大 数据 平 
台 ， 作 为 Apache 旗下 的 同门 师兄 弟 ， 二 者 有 着 激烈 的 竞争 ， 同 时 还 面临 着 其 他 
挑战 ， 比 如 Apache Storm 和 Cloudera 为 代表 的 商业 非 开 源 的 大 数据 平台 等 。 大 
数据 领域 的 技术 革新 是 风起云涌 只 争 朝夕 ， 正 所 谓 “ 天 下 风云 出 我 辈 ， 一 入 江湖 
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岁月 催 ”。 

大 数据 技术 提供 了 可 以 持续 升级 和 扩大 的 计算 能 力 ， 这 也 是 大 数据 技术 通常 
和 云 计算 相提并论 的 原因 所 在 。 大 数据 技术 和 云 计算 是 大 规模 数据 处 理 和 分 析 的 
基础 设施 , 接 下 来 的 问题 是 要 怎样 进行 数据 处 理 与 分 析 ，, 以 及 这 样 做 的 意义 何在 。 


大 数据 与 云 计算 


上 文中 提 到 的 这 些 大 数据 技术 是 进行 海量 异 构 数据 存储 和 计算 的 必 备 工具 。 
大 数据 平台 的 硬件 和 软件 系统 的 搭建 和 运 维 都 需要 不 菲 的 投入 ， 因 此 大 数据 平 
台 最 开始 是 在 有 着 分 析 和 存储 超大 规模 数据 刚性 需求 的 科技 公司 内 部 得 到 实现 
并 且 不 断 地 成 熟 。 随 着 数据 存储 和 计算 需求 的 不 断 增 加 ， 自 然 就 会 产生 供应 去 
满足 这 些 需 求 ， 这 就 是 云 计算 (Cloud Computing) 。 云 计算 的 主要 供应 商 正 是 
这 些 大 型 科技 公司 。 因 此 ， 云 计算 不 仅 是 技术 ， 更 是 商业 模式 ， 云 计算 不 仅 是 

台 ， 更 是 服务 。 美 国 国家 标准 与 技术 研究 院 (National Institute of Standards and 
Technology，NIST) 对 云 计算 的 定义 为 : 云 计 算是 一 种 按 使 用 量 付 费 的 模式 ， 
这 种 模式 提供 可 用 的 、 便 捷 的 、 按 需 的 网 络 访问 ， 进 入 可 配置 的 计算 资源 共享 
池 《 资 源 包 括 网 络 ， 服 务 器 ， 存 储 ， 应 用 软件 ， 服 务 ) ， 这 些 资源 能 够 被 快速 
提供 ， 只 需 投入 很 少 的 管理 工作 ， 或 与 服务 供应 商 进行 很 少 的 交互 。® (Cloud 
computing is a model for enabling convenient, on-demand network access to a shared 
pool of configurable computing resources (e.g., networks, servers, storage, 
applications, and services) that can be rapidly provisioned and released with minimal 
management effort or service provider interaction.) 云 计算 本 质 上 是 商业 化 的 计算 资 
源 供应 ， 可 以 使 不 懂 相 关 技 术 的 人 也 能 够 方便 使 用 计算 资源 ， 而 且 云 计算 可 以 对 
计算 需求 进行 统一 管理 ， 对 资源 进行 优化 配置 ， 实 现 统筹 上 的 最 优 ， 尽 可 能 地 避 
免 浪 费 。 就 如 同 电能 一 样 ， 我 们 每 天 都 使 用 电能 带 来 的 便利 ， 但 是 并 不 需要 自己 
使 用 发 电机 去 发 电 ， 而 且 也 不 需要 明白 这 背后 的 技术 细节 : 电能 是 如 何 从 其 他 能 
源 转 化 而 来 之 后 又 是 如 何 传输 到 每 家 每 户 的 。 

那么 ， 大 数据 与 云 计算 又 是 什么 关系 呢 ? 微软 的 一 位 副 总 裁 解释 说 : “大 数 


©@ Badger, Lee, et al “Draft cloud computing synopsis and recommendations.”Recommendations of 
the National Institute of Standards and Technology (2011). 
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据 ” 与 “ 云 计算 ”就 像 一 枚 钢 锁 的 两 个 面 ， 二 者 相辅相成 。 大 数据 相当 于 储 有 海 
量 信息 的 信息 库 ，“ 云 计算 ”相当 于 计算 机 和 操作 系统 。 如 果 没有 “大 数据 ”的 
信息 积淀 ，“ 云 计算 ”的 能 力 再 强大 ， 也 没有 用 武之 地 。 大 数据 与 “ 云 计算 ”二 
者 结合 起 来 ， 能 够 给 世界 带 来 一 场 深刻 的 管理 技术 革命 与 社会 治理 革命 ， 当 然 ， 
人 力 资源 管理 也 包括 在 内 。 


入 | 
第 


三 节 


大 数据 与 人 工 智能 ) 


在 大 数据 时 代 ， 在 巨大 的 数据 量 和 计算 能 力 的 支持 下 ， 计 算 机 应 用 正 变 得 越 
来 越 智能 化 ， 而 且 在 我 们 日 常 的 语 境 中 ， 大 数据 还 和 人 工 智 能 频繁 地 共同 出 现 、 
大 秀 恩爱 。 要 理解 大 数据 智能 化 的 本 质 ， 需 要 对 人 工 智能 有 必要 的 了 解 。 人 工 智 
能 的 历史 比 大 数据 要 久远 得 多 ， 理 解 了 什么 是 人 工 智 能 之 后 ， 才 能 真正 理解 大 数 
据 的 未 来 。 


人 工 智能 简 史 


人 工 智 能 的 诞生 可 以 一 直 追 溯 到 1956 年 夏天 在 达 特 茅 斯 学 院 举行 的 达 特 
茅 斯 会 议 。 这 被 命名 为 “人 工 智 能 夏季 研讨 会 ” (Summer Project on Artificial 
Intelligence) 的 会 议 上 第 一 次 正式 提出 了 人 工 智能 这 个 概念 。 这 次 会 议 标志 着 人 
工 智能 作为 计算 机 科学 一 个 独立 的 重要 分 支 而 载 入 史册 ， 会 议 的 发 起 和 参加 者 更 
是 群英 荟 荤 ， 人 工 智能 这 个 学 科 从 诞生 之 始 就 像 磁铁 一 样 不 断 吸引 着 处 于 人 类 智 
慧 赂 峰 的 人 物 。 参 加 会 议 的 10 位 学 者 包括 : 

约翰 。 麦 卡 锡 (John McCarthy) 

马 文 。 明 斯 基 (Mavin Minsky) 

克 劳 德 。 香 农 (Claude Shannon) 

奥利弗 。 赛 弗 里 奇 (Oliver Selfridge) 

赫 伯 特 。 西蒙 (Herbert Simon) 
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艾 伦 ， 纽 维尔 (Alan Newell) 

亚 巧 。 塞 纪 尔 (Arthur Samuel) 

雷 。 所 罗 门 诺 夫 (Ray Solomonoff) 

纳 撒 尼 尔 。 罗 切 斯 特 (Nathaniel Rochester) 

特 伦 查 德 。 摩 尔 〈Trenchard More) 

这 些 学 者 至 少 是 当时 人 工 智 能 领域 的 半壁 江山 ， 极 大 地 影响 了 人 工 智能 的 
后 续 发 展 。 会 议 的 主要 组 织 者 约翰 。 麦 卡 锡 〈John McCarthy) 和 马 文 。 明 斯 基 

(Mavin Minsky) 被 称 为 人 工 智 能 之 父 ， 并 且 联 合 建立 了 麻 省 理工 学 院 人 工 智 

能 实验 室 〈 首 个 人 工 智 能 实验 室 ) ， 其 中 麦卡锡 是 Lisp 语言 和 计算 机 分 时 概念 
(time-sharing) 的 发 明 者 , 图 灵 奖 得 主 ; 明 斯 基 (Mavin Minsky) 是 框架 理论 (Frame 
Theory) 的 创始 人 ， 虚 拟 现实 的 先驱 ， 第 一 位 获得 图 灵 奖 的 人 工 智 能 学 者 。 会 议 
的 参与 者 中 ， 克 劳 德 。 香 农 〈Claude Shannon) 是 信息 论 的 创始 人 ， 信 息 烂 概念 
的 创造 者 ， 奥 利 弗 。 赛 弗 里 奇 (Oliver Selfridge) 被 称 为 机 器 感知 之 父 (Father 
of Machine Perception)， 模 式 识别 的 莫 基 人 ; 艾 伦 ， 纽 维尔 (Alan Newell) 和 
赫 伯 特 。 西 蒙 (Herbert Simon) 试图 用 计算 机 模拟 人 类 的 心智 (mind) ， 在 人 工 
智能 中 自 成 一 派 ， 而 且 还 推动 了 认 知 心理 学 (Cognitive Psychology) 的 发 展 ， 二 
人 襄 括 了 包括 图 灵 奖 在 内 的 计算 机 领域 所 有 重量 级 奖项 ， 孝 伯 特 。 西 蒙 还 是 诺 
贝尔 经 济 学 奖 得 主 ， 亚 瑟 。 塞 纪 尔 (Arthur Samuel) 提出 了 机 器 学 习 (Machine 
Leaming) 的 概念 ， 并 且 开 发 了 世界 上 第 一 个 自我 学 习 的 计算 机 程序 ， 推 动机 器 
学 习 成 为 人 工 智能 的 第 一 个 重要 分 支 ; 雷 。 所 罗 门 诺 夫 (Ray Solomonoff) 是 
算法 概率 理论 (Algorithmic Probability Theory) 的 奠基 人 ,算法 概率 (Algorithmic 
Probability) 概念 的 创造 者 。 

人 工 智 能 诞生 后 的 第 一 件 事 应 该 是 回答 人 工 智能 是 什么 ? 在 这 次 会 议 上 ， 人 
工 智 能 先驱 们 把 人 工 智能 定义 为 : “让 机 器 的 行为 看 起 来 就 像 是 人 所 表现 出 的 智 
能 行为 一 样 。” (Every aspect of learning or any other feature of intelligence can in 
principle be so precisely described that a machine can be made to stimulate it.) 这 个 
定义 本 身 仍然 是 模糊 的 ， 这 也 正 是 人 工 智能 复杂 性 的 体现 ， 要 给 人 工 智 能 一 个 严 
格 而 又 精确 的 定义 实在 是 太 难 了 。 

在 人 工 智 能 的 发 展 过 程 中 ， 该 领域 中 的 学 者 根据 自己 理解 给 出 各 自 的 定义 ， 
归纳 起 来 有 两 个 维度 、 四 种 具有 代表 性 的 定义 。 这 两 个 维度 分 别 是 智能 的 标准 和 
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智能 的 体现 。? 

所 谓 智能 的 标准 是 如 何 划 定 智能 与 非 智能 的 边界 ， 智 能 的 标准 分 为 两 类 : 以 
人 类 (Chumanly) 智能 为 标准 和 以 合理 的 〈rational) 轴 辑 为 标准 。 以 人 类 智能 为 
标准 就 是 把 人 类 自身 作为 参照 ， 而 另 一 种 则 是 以 理想 的 合理 逻辑 作为 参照 。 所 谓 
智能 的 体现 是 智能 表现 出 的 功能 和 功效 ， 智 能 的 体现 也 分 为 两 类 : 思考 和 行为 。 

这 两 个 维度 的 排列 组 合 形成 了 四 种 人 工 智 能 的 定义 : 

像 人 一 样 行动 (Acting Humanly)， 雷 。 库 兹 韦 尔 (Ray Kurzweil) 提出 : “人 
工 智能 是 创造 具有 一 定 功能 机 器 的 技艺 ， 当 人 类 来 执行 这 些 功 能 的 时 候 需 要 智 
能 。” (The art of creating machines that perform functions that require intelligence 
when performed by people.) 

像 人 一 样 思 考 (Thinking Humanly), 理 查 德 。 贝尔 曼 (Richard Bellman) 提出 
“(人 工 智能 ) 是 与 人 类 思维 相关 的 活动 ， 诸 如 决策 、 问 题 求 解 、 学 习 等 活动 
(的 自动 化 ) 。”[ (The automation of) activities that we associate with human 
thinking, activities such as decision making, problem solving, learning...] 

合理 的 行动 (Acting Rationally) ， 乔 治 。 鲁 格 尔 (George Luger) 和 威廉 。 斯 
塔 布 菲尔德 〈William Stubblefield) 提出 : “作为 计算 机 科学 的 一 个 分 支 ， 人 
工 智 能 研究 的 是 自动 化 的 智能 行为 。” (The branch of computer science that is 
concerned with the automation of intelligent behavior. ) 

合理 的 思考 (Thinking Rationally) ， 帕 特 里 克 。 温 斯 顿 (Patrick Winston) 提出 : 
“人工 智能 ) 是 使 感知 、 推 理 和 行为 成 为 可 能 的 计算 的 研究 。” (The study of 


the computations that make it possible to percetive, reason and act.) 


上 | 图 灵 与 图 灵 测 斌 


延伸 阅读 | CR 
Alan Turing 是 著名 的 数学 家 、 逻 辑 学 家 和 计算 机 科学 家 ， 


| 被 称 为 计算 机 科学 之 父 和 人 工 智能 之 父 (在 人 工 智能 领域 ，John 
McCarthy 和 Mavin Minsky 也 被 称 为 人 工 智 能 之 父 。Alan Turing 完 成 
了 初创 性 的 理论 工作 ， 但 遗憾 的 是 Turing 并 没有 看 到 人 工 智能 诞生 便 
离开 了 人 世 。 笔 者 认为 在 人 工 智 能 领域 中 Turing 的 地 位 更 类 似 于 祖 
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父 ) 。1936 年 ，Turing 发 表 了 一 篇 极为 重要 的 论文 《 论 数字 计算 在 
决断 问题 中 的 应 用 》 ( On Computable Numbers,，with an Application 
to the Entscheidungs Problem ) 。 在 这 篇 文章 中 ，Turing 提 出 了 一 种 假 
想 的 机 器 ， 后 来 称 为 图 灵机 ( Turing Machine ) ，John von Neumann 
( 冯 。 诺 依 曼 ) 认为 现代 计算 机 的 核心 概念 便 来 自 于 Turing 的 这 一 
工作 。 在 “二 战 ”期 间 ，Turing 帮 助 盟 军 破解 了 纳粹 德国 的 密码 使 
战争 得 以 提前 结束 。1950 年 ，Turing 在 Mind 杂 志 上 发 表 了 另外 一 篇 
极为 重要 的 论文 《计算 机 器 与 智能 》( Computing Machinery and 
Jntelligence ) ,文中 Turing 对 “机 器 能 否 思 考 ? ”这 一 问题 展开 了 
论述 并 提出 了 对 机 器 是 否 智能 进行 测试 的 方法 一 一 后 来 被 称 之 为 
图 灵 测 试 (Turing Test ) 。 这 一 论文 被 认为 是 人 工 智能 的 起 源 。 
1952 年 ，Turing 因 为 同性 恋 而 被 审判 。1954 年 ，Turing 被 发 现 死 于 
家 中 ， 被 警方 认定 为 自杀 。 为 了 纪念 Turing，1966 年 计算 机 协会 
( Association of Computing Machinery，ACM ) 设置 了 计算 机 领域 的 
最 高 奖项 图 灵 奖 (Turing Award ) ， 图 灵 奖 被 认为 是 计算 机 领域 的 诺 
贝尔 奖 。 

图 灵 测 试 是 Turing 在 1950 年 提出 的 用 于 测试 机 器 智能 水 平 的 方 
法 。 图 灵 测 试 的 具体 过 程 是 : 两 个 测试 对 象 分 别 是 机 器 (A ) 和 能 
够 正常 思维 的 人 (也 ) ， 测 试 者 是 一 个 正常 思维 的 人 (C ) ，C 无 法 
看 见 A 和 B， 也 与 A 和 B 没 有 物理 接触 。C 用 A 和 B 都 能 理解 的 语言 询 
问 A 和 B 一 系列 的 问题 ， 信 息 的 传递 通过 文本 而 不 是 语音 的 方式 。 
经 过 若干 轮 的 询问 ， 如 果 C 无 法 分 辨 出 A 和 B 之 中 哪 一 个 是 机 器 ， 哪 
一 个 是 人 类 ， 则 A 通过 图 灵 测 试 。 现 在 大 众 所 熟 知 的 图 灵 测 试 则 是 
Turing 在 1952 年 接受 BBC 采访 时 提出 的 版 本 。 在 这 个 版 本 中 ，C 是 一 
组 人 ， 如 果 C 中 有 30% 的 人 无 法 分 辨 出 A 和 B 之 中 哪 一 个 是 人 类 ， 哪 
一 个 是 机 器 ， 则 A 通过 了 图 灵 测 试 。 

从 图 灵 测 试 被 提出 来 ， 就 不 断 地 有 人 工 智能 进行 挑战 ， 也 有 研 
究 团 队 声 称 其 研发 的 人 工 智 能 通过 了 图 灵 测 试 ， 但 是 这 些 挑 战 成 功 
的 测试 最 终 的 结果 都 有 争议 。 因 为 测试 的 结果 会 受到 测试 设置 的 影 
响 而 难以 保证 客观 性 : 例如 测试 者 C 由 什么 样 的 人 构成 ， 测 试 者 C 提 
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出 了 什么 样 的 问题 都 会 影响 测试 结果 。 
因为 图 灵 测 试 的 这 种 灵活 性 和 现 阶 段 人 工 智 能 的 发 展 水 平 使 
“x x 人 工 智能 通过 图 灵 测 试 ” 这 一 说 法 不 具有 现实 意义 ; 或 者 说 
因为 现 阶段 人 工 智 能 和 人 类 智能 之 间 的 差距 ， 我 们 只 需要 提高 图 灵 
测试 内 容 的 难度 就 一 定 不 会 有 人 工 智能 通过 图 灵 测 试 。 现 实 中 应 用 
的 反 向 图 灵 测 试 正 是 利用 了 这 一 点 。 所 谓 反 向 图 灵 测 试 不 是 判断 对 
方 是 不 是 人 工 智 能 ， 而 是 判断 对 方 是 不 是 人 类 ， 最 典型 的 例子 就 是 
认证 码 。 设 置 认证 码 的 目的 就 是 为 了 识别 用 户 是 人 类 还 是 人 工 智能 
程序 并 把 人 工 智 能 程序 屏蔽 掉 。 读 者 可 能 会 有 直观 的 感受 是 认证 码 
变 得 越 来 越 复杂 了 ， 从 之 前 简单 的 数字 和 字母 变 成 了 复杂 的 图 像 识 
别 ，12306 火 车 的 购 票 系统 在 春运 期 间 的 复杂 程度 还 引发 了 网 友 的 吐 
构 。 这 正 是 因为 随 着 人 工 智 能 的 发 展 ， 之 前 验证 码 已 经 不 足以 把 人 
工 智 能 屏蔽 掉 ， 所 以 测试 难度 升 高 之 后 才能 把 人 类 和 人 工 智 能 区 别 
开 来 。 
仅仅 从 人 工 智能 的 定义 我 们 就 能 直观 地 感受 到 人 工 智能 是 一 个 广阔 而 又 复杂 
的 领域 。 对 应 于 这 四 种 定义 的 研究 都 是 属于 人 工 智 能 领域 , 但 是 因为 定义 不 一 样 ， 
实现 人 工 智 能 的 思想 、 方 法 、 难 度 和 所 需要 的 资源 大 相 径 庭 ， 因 此 形成 了 不 同 的 
人 工 智 能 流派 。 关 于 人 工 智 能 有 多 少 个 流派 都 有 不 同 的 见解 ， 在 此 仅 对 人 工 智能 
领域 最 著名 的 符号 主义 流派 和 连接 主义 流派 进行 简要 介绍 。 
符号 主义 (Syllogisms) ， 又 称 逻 辑 主义 (Logicism) 。 数 学 和 物理 学 的 发 
展 遵循 着 公理 体系 的 范式 : 即 以 公理 和 定律 为 基础 ， 通 过 逻辑 推导 出 理论 体系 。 
符号 主义 采用 了 类 似 的 方式 来 构建 人 工 智能 的 理论 体系 ， 整 个 理论 的 基础 是 纽 
维尔 (Newell) 和 西蒙 (Simon) 提出 的 物理 符号 系统 假设 (Physical Symbol 
System Hypothesis) : “物理 符号 系统 是 普遍 智能 的 充分 必要 条 件 。” 该 学 派 认 
为 人 和 计算 机 都 是 物理 符号 系统 ， 信 息 经 过 处 理 之 后 形成 知识 ， 同 时 知识 又 是 智 
能 的 基础 ， 知 识 的 表达 、 推 理 和 运用 是 智能 的 关键 ， 通 过 把 知识 用 符号 表示 ， 认 
知 的 过 程 就 是 符号 处 理 的 过 程 ， 其 中 的 推理 即 通过 逻辑 和 搜索 对 问题 进行 求解 。 
因此 符号 主义 是 通过 计算 机 科学 和 心理 学 方法 在 宏观 上 对 人 脑 功能 进行 模拟 。 
这 一 学 派 成 功 应 用 的 代表 是 专家 系统 ， 专 家 系统 存储 有 大 量 的 专业 知识 和 经 验 并 
通过 模拟 人 类 专家 的 决策 过 程 来 解决 需要 人 类 专家 处 理 的 复杂 问题 。 这 一 派 的 代 


第 二 章 ”大 数据 挖掘 渠道 及 技术 方法 | 79 


表 人 物 是 艾 伦 ， 纽 维尔 (Alan Newell) 、 赫 伯 特 .西蒙 (Herbert Simon) 和 Nils 
John Nilsson。 

连接 主义 (Connectionism) ， 又 称 仿生 学 派 (Bionicsism) 。 相 比 于 符号 主 
义 对 人 脑 功能 的 模拟 ， 连 接 主义 通过 对 人 脑 的 物理 和 生物 结构 进行 模拟 来 实现 人 
工 智 能 。 人 脑 智 能 的 生理 基础 是 神经 网 络 ， 因 此 连接 主义 开始 于 对 神经 元 的 模 
拟 。 早 在 1943 年 ，Warren McCulloch 和 Walter Pitts 建立 了 神经 元 的 数学 模型 ， 
即 MP 模型 ， 开 启 了 “神经 计算 ”的 新 时 代 。 该 学 派 认为 人 脑 思维 过 程 是 神经 元 
相互 作用 的 过 程 ， 并 通过 大 量 非 线性 的 处 理 器 来 模拟 人 脑 中 的 神经 元 ， 这 些 模拟 
神经 元 通过 复杂 的 连接 关系 形成 人 工 神 经 网 络 。 经 过 几 十 年 的 发 展 ， 连 接 主义 不 
断 获 得 完善 也 越 来 越 复 杂 ， 从 模拟 单个 神经 元 ， 到 单 层 神经 网 络 ， 到 两 层 神经 网 
络 ， 到 多 层 神 经 网 络 ， 再 到 深度 学 习 。 神 经 网 络 最 有 名 应 用 案件 就 是 大 家 耳 熟 能 
详 的 AlphaGo。 

历史 上 ， 符 号 主义 学 派 和 连接 主义 学 派 有 着 长 期 的 论战 和 对 立 ， 相 爱 相 杀 几 
十 年 ， 现 在 回 过 头 来 审视 这 段 历 史 我 们 会 发 现 虽 然 两 个 学 派 各 有 缺陷 引起 相互 批 
判 ， 但 两 个 学 派 的 理论 是 兼容 的 ， 是 从 不 同 的 方向 接近 真理 ， 而 且 人 工 智 能 仍 
然 具 有 巨大 的 发 展 空间 , 远 未 成 熟 , 每 个 学 派 都 只 是 完成 的 整个 图 像 的 一 部 分 。 
大 脑 为 什么 会 形成 智能 ， 人 脑 为 什么 会 有 远 超 其 他 动物 大 脑 的 智能 ? 这 些 问 
题 到 目前 为 止 我 们 仍然 没有 答案 ， 因 此 人 工 智 能 所 要 模拟 的 人 脑 或 者 合理 的 
逻辑 本 身 对 人 类 来 说 都 是 未 解 之 谜 。 两 个 学 派对 功能 的 模拟 和 对 结构 的 模拟 
都 是 人 工 智 能 知识 版 图 上 有 限 的 拼图 ， 这 些 有 限 知识 之 外 仍然 有 巨大 的 未 知 等 待 
着 去 开拓 。 


国 风 机 器 学 习 : Al 的 瑞士 军刀 


机 器 学 习 是 人 工 智 能 的 一 个 重要 分 支 ， 或 者 说 机 器 学 习 是 实现 人 工 智能 的 一 
种 可 能 的 方式 。 机 器 学 习 是 对 英文 Machine Learning 的 直译 。 这 里 的 Machine 指 
的 是 计算 机 ， 而 这 里 的 “学 习 ” 描 叙 的 是 这 样 的 一 个 过 程 : 用 数据 对 计算 机 进行 
训练 ， 计 算 机 用 获得 的 经 验 进而 分 析 其 他 数据 并 得 出 结论 。 这 和 人 类 的 学 习 过 程 
非常 类 似 ， 人 类 通过 听课 和 做 习题 获得 经 验 然后 在 考试 中 解决 类 似 的 问题 ， 本 质 
上 都 是 举一反三 。 
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机 器 学 习 的 历史 要 略 短 于 人 工 智 能 。 在 1959 年 ， 参 加 了 1956 年 达 特 茅 斯 
会 议 的 Arthur Samuel 发 表 了 《利用 西洋 跳棋 的 机 器 学 习 研 究 》 (Some Studies in 
Machine Learning Using the Game of Checkers) ， @ 标志 着 机 器 学 习 的 诞生 。 相 比 
于 人 工 智 能 的 高 大 上 ， 机 器 学 习 这 个 名 字 显 得 有 点 笨拙 ， 因 为 在 20 世纪 350 年 代 ， 
计算 机 大 到 需要 好 几 间 屋子 才能 装 得 下 ， 人 们 把 这 个 大 东西 称 之 为 机 器 是 再 正常 
不 过 的 事情 ， 而 在 今天 的 科技 环境 下 我 们 已 经 在 潜意识 中 把 越 来 越 智能 的 计算 机 
从 其 他 机 器 中 分 离 了 出 来 。 

Arthur Samuel 在 当时 做 了 两 件 重 要 的 事情 ， 首 先是 提出 了 机 器 学 习 的 概念 : 
在 不 直接 针对 问题 进行 编程 的 情况 下 ， 赋 予 计算 机 学 习 能 力 的 一 个 领域 。 其 次 ， 
Samuel 编写 了 一 套 西洋 跳棋 的 程序 ， 然 后 让 这 个 程序 自己 和 自己 下 棋 并 进行 学 
习 ， 最 后 这 个 程序 的 棋艺 超过 了 Samuel。 这 个 情节 是 不 是 听 着 耳 熟 ， 在 计算 机 
诞生 之 后 人 类 就 一 直 在 尝试 让 计算 机 学 习 各 种 棋 类 来 挑战 人 类 (Board Games 
AI) 。 计 算 机 逐渐 在 各 种 棋 类 方面 胜 过 人 类 ， 围 棋 作为 最 复杂 的 棋 类 ， 长 期 以 来 
人 类 相 比 于 计算 机 一 直 处 于 优势 地 位 ， 但 从 2016 年 开始 这 种 状态 发 生 了 改变 ， 
先是 人 工 智能 AlphaGo 打败 了 韩国 高 手 李 世 石 ， 之 后 AlphaGo 的 升级 版 在 2017 
年 打败 了 围棋 世界 排名 第 一 的 柯 洁 。 至 此 ， 理 论 上 在 任何 棋 类 的 人 类 和 人 工 智 能 
比赛 中 ， 人 工 智 能 都 会 更 占 优势 。 

人 工 智能 既 包 括 了 形 而 上 的 哲学 思考 ， 也 包括 了 形 而 下 的 具体 方法 一 一 机 器 
学 习 。 机 器 学 习 包 含 了 大 量 的 具体 算法 模型 ， 通 过 这 些 算法 模型 我 们 可 以 让 计算 
机 通过 学 习 完 成 特定 的 任务 , 例如 上 面 提 到 的 : 学 习 下 围棋 并 尽 可 能 地 战胜 对 手 。 
机 器 学 习 有 着 非常 广泛 的 应 用 ， 包 括 我 们 熟知 的 用 户 行为 分 析 、 推 荐 系统 、 文 本 
过 滤 等 。 以 推荐 系统 为 例 ， 推 荐 系统 是 通过 用 户 的 历史 数据 来 判断 用 户 的 喜好 和 
预测 用 户 需求 , 推荐 系统 随 着 互联 网 2.0 时 代 的 崛起 变 得 越 来 越 受 欢迎 , 电 商 网 站 、 
交友 网 站 、 新 闻 网 站 等 现在 都 在 使 用 推荐 系统 。 

传统 的 机 器 学 习 算法 主要 分 为 两 类 : 监督 学 习 (Superivesed Learning) 和 非 
监督 学 习 (Unsupervised Learning) 。 随 着 机 器 学 习 的 不 断 发 展 ， 还 出 现 了 介 于 
两 者 之 间 的 半 监 督学 习 (Semi-superived Learning) ， 在 此 不 作 深入 展开 ; 广义 的 
机 器 学 习 还 包括 具有 控制 科学 血统 的 强化 学 习 (Reinforcement Learming) 。 


©@ Samuel, Arthur L. “Some studies in machine leaming using the game of checkers.” IBM Journal of 
Tesearch and development 44.1.2 (2000): 206-226. 
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监督 学 习 和 非 监 督学 习 的 区 别 在 于 ， 监 督学 习 的 训练 数据 不 仅 有 输入 数据 ， 
而 且 有 输出 的 目标 值 ， 而 非 监督 学 习 没 有 目标 值 。 一 个 直观 的 理解 就 是 监督 学 习 
不 仅 有 问题 ， 而 且 有 答案 ， 因 此 学 习 的 效果 可 以 比照 答案 进行 修正 ， 而 非 监督 学 
习 只 有 问题 没有 答案 ， 是 开放 性 问题 ， 更 有 可 能 从 数据 中 发 现 意 想不到 的 信息 。 

监督 学 习 的 主要 任务 包括 分 类 〈Classification) 和 回归 (Regression) 。 分 
类 是 把 数据 划分 到 合适 的 类 别 中 。 常 用 的 分 类 算法 包括 K- 近邻 算法 (kNN) 、 
朴素 贝 叶 斯 算法 (Naive Bayesian Classification) 、 支 持 向 量 机 〈Support Vector 
Machine) 、 决 策 树 (Decision Tree) 算法 和 人 工 神经 网 络 (Artificial Neural 
Network，ANN) 等 ， 以 及 由 其 他 算法 之 上 构建 的 集成 方法 : Bagging 和 Boosting 
是 集成 方法 中 得 到 广泛 应 用 的 两 种 方式 .回归 是 根据 输入 的 数值 型 数据 进行 预测 。 
回归 算法 包括 线性 回归 、 岭 回归 和 lasso 回归 等 。 监 督学 习 本 质 上 是 计算 机 通过 
训练 来 获得 经 验 进而 进行 预测 ， 分 类 是 对 类 别 进行 预测 ， 而 回归 是 对 数值 进行 
预测 。 

非 监督 学 习 的 主要 任务 是 聚 类 (Clustering) 、 降 维 处 理 (Dimensionality 
Reduction) 和 关联 分 析 (Association Analysis) 。 聚 类 是 把 数据 根据 特征 分 成 不 
同 的 类 别 ， 同 一 类 别 的 数据 具有 相似 的 特征 ， 常 用 的 聚 类 算法 有 K-MEANS。 
常用 的 关联 分 析 有 Apriori 和 FP-growth 算法 。 聚 类 本 质 上 发 现 数据 中 蕴含 的 
规律 ， 这 些 规律 反映 的 是 客观 事实 ， 因 此 就 没有 所 谓 的 正确 或 者 错误 之 分 ; 在 
机 器 学 习 实 际 应 用 过 程 中 如 果 描述 样本 的 特征 数量 过 于 巨大 ， 例 如 上 万 个 甚至 
百 万 个 特征 ， 解 决 问题 的 难度 会 大 大 增加 ， 这 就 是 所 谓 的 维度 灾难 (Curse of 
Dimenstionality) ， 降 维 处 理 就 是 解决 这 个 问题 的 一 种 方法 。 

强化 学 习 (Reinforcement Learning) 是 一 种 非常 类 似 于 生物 学 习 过 程 的 机 器 
学 习 方 法 , 与 前 面 两 类 有 所 不 同 。 强 化 学 习 的 因素 包括 进行 学 习 的 对 象 (Agent) ， 
环境 (Environment) 和 对 象 状态 (Agent States) ， 对 象 的 动作 (Actions) 和 反 
馈 (Reward) 。 简 单 说 来 就 是 在 与 环境 交互 的 过 程 中 ， 对 象 完成 动作 ， 据 此 给 
予 对 象 反 馈 一 一 奖励 或 者 惩罚 ， 通 过 这 个 过 程 来 使 对 象 进行 学 习 。 这 个 过 程 和 人 
类 训练 宠物 的 方式 非常 类 似 ， 这 就 是 为 什么 说 这 是 一 个 非常 类 似 于 生物 学 习 过 程 
的 方法 。 

到 目前 为 止 ， 相 比 于 其 他 机 器 学 习 分 支 ， 非 监督 学 习 面 临 着 更 多 的 挑战 。 
机 器 学 习 的 著名 科学 家 、 纽 约 大 学 教授 、Facebook 人 工 智 能 实验 室 负责 人 Yan 
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LeCun 这 样 描述 人 工 智 能 的 状态 : 如 果 把 “智能 ” 比 作 一 块 蛋糕 ， 强 化 学 习 就 是 
和 蛋糕 上 的 一 粒 樱桃 ， 而 监督 学 习 是 蛋糕 外 的 一 层 糖 霜 ， 但 无 监督 学 习 才 是 蛋糕 本 
身 。 目 前 我 们 只 知道 制作 糖 霜 和 樱桃 ， 却 不 知道 如 何 做 蛋糕 。 

2-1 展示 了 不 同 的 机 器 学 习 算法 的 发 展 算法 和 受 欢迎 的 程度 。 现 阶段 ， 最 
主流 的 算法 分 别 是 深度 学 习 、 支 持 向 量 机 和 集成 算法 ， 其 中 集成 方法 包括 了 随机 
森林 算法 (Random Forests) 和 自 适 应 提升 算法 (Adaboost) 。 我 们 将 分 别 对 这 
三 个 类 别 的 算法 进行 介绍 ; 对 于 非 监 督学 习 我 们 简要 介绍 相对 简单 而 又 使 用 广泛 
的 关联 分 析 。 


本 


LeCun, Vapnik,Cortes 
Rumelhart,Hinton, Williams 
Hetch,Nielsen 


Random Forest 算 法 


Linnainmaa 1970 
Werbos 1974 


当 识 也 汪 斑 峡 


Rosenblatt 1958 


Hinton 


\ Perceptron 时 
神经 网 络 - JSchmidhuber LeCun 
Minsky 1969 IDSIA Andrew Ng. 


| | | [ | | | | | | I | 四 
1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010 2015 


年 份 
2-1 不 同 的 机 器 学 习 算 法 的 发 展 趋 势 和 受 欢 迎 的 程度 


”| 人 机 大 战 一 -Board Games AI 


延伸 阅读 | 
人 工 智能 在 棋 类 上 的 应 用 一 直 是 人 工 智 能 发 展 的 试金石 ， 公 开 
| 的 人 机 较量 能 让 大 众 直观 地 了 解 到 人 工 智能 的 发 展 水 平 ， 而 且 一 直 


”以 来 人 机 大 战 作为 最 前 沿 科技 应 用 的 直观 体现 都 产生 了 巨大 的 素 动 
效应 。 其 中 最 为 著名 的 人 机 对 决 分 别 是 1997 年 Deepblue (深蓝 ) 战 


© http://www.erogol.conmy/brief-history-machine-learning. 
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胜 国际 象棋 王 卡 斯 帕 罗 夫 和 AlphaGo 挑 战 人 类 顶尖 棋 手 。@ 

深蓝 是 由 IBM 建 造 的 超级 计算 机 ， 在 1996 年 初次 交锋 中 卡 斯 帕 
罗 夫 击败 了 深蓝 ， 但 是 在 一 年 后 的 第 二 次 交锋 中 升级 版 的 深蓝 击败 
了 卡 斯 帕 罗 夫 ， 宣 告 在 国际 象棋 领域 人 类 的 落 败 。 不 过 这 次 人 工 智 
能 的 胜利 并 没有 被 认为 是 人 类 在 棋 类 上 的 落 败 ， 因 为 在 比 国际 象棋 
复杂 得 多 的 围棋 领域 人 类 有 着 绝对 的 优势 ， 

这 种 情况 一 直 持 续 了 20 年 ， 在 这 20 年 间 计算 机 的 计算 能 力 和 人 
工 智 能 的 算法 都 发 生 了 翻天 改 地 的 变化 。 谷 歌 公司 开 发 的 AlphaGo 分 
别 在 2016 年 战胜 了 李 世 石 ， 在 2017 年 战胜 了 柯 洁 。 把 这 些 比赛 单纯 
理解 为 人 工 智能 战胜 人 类 似乎 并 不 准确 ， 或 者 应 该 说 是 人 工 智 能 专 
家 通过 人 工 智 能 科技 战胜 了 棋 类 方面 的 顶尖 高 手 。 这 一 事件 最 大 意 


义 应 该 是 让 公众 认识 到 人 工 智 能 应 用 于 各 个 领域 的 巨大 潜力 和 即将 


引起 的 深刻 变化 。 


此 探索 与 取舍 : 完美 的 算法 在 哪里 


“My CPU is a nerual-net processor，a learning computer.” 


——T800_ Terminator2 : Judgment Day 
在 电影 《终结 者 2: 审判 日 》 中 ， 阿 诺 。 施 瓦 辛 格 饰演 的 终结 者 T800 说 了 
上 面 一 段 话 : “我 的 CPU 是 神经 网 络 处 理 器 ， 一 个 会 学 习 的 计算 机 。” 如 果 未 


来 真 的 会 出 现 终结 者 的 话 ， 其 CPU 确实 很 有 可 能 就 是 神经 网 络 处 理 器 ， 


因为 人 


工 神经 网 络 是 目前 机 器 学 习 中 最 先进 和 最 前 沿 的 算法 之 一 。 横 扫 四 方 的 AlphaGo 
的 核心 算法 就 是 由 人 工 神经 网 络 的 深度 学 习 算法 和 强化 学 习 相 结合 。 人 工 神经 网 
络 的 发 展 是 人 工 智能 发 展 的 一 条 主线 ， 很 大 程度 上 人 工 神经 网 络 的 兴衰 历史 代表 
了 人 工 智能 的 发 展 历程 。 人 工 神 经 网 络 的 发 展 以 大 致 10 年 为 一 个 阶段 ， 其 间 经 


历 了 多 次 的 起 起 伏 伏 。 


在 19 世纪 晚期 ， 西 班 牙 解剖 学 家 Santiago Ram6ny Cajal 发 现 了 神经 元 是 构 
成 神经 系统 的 基本 功能 单元 ， 半 个 世纪 之 后 ，1943 年 McCulloch 和 Pitts 模拟 生 


© Campbell,AJ. Hoane 开 ,F Hsu, Artificial Intelligence 134, 57 (2002). 
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物 神 经 元 提出 了 MP 模型 。 即 使 在 人 工 智能 这 个 智商 爆 表 的 领域 ，Pitts 也 是 公认 
的 天 才 ，Pitts 在 12 岁 的 时 候 在 图 书馆 用 3 天 时 间 自 学 了 罗素 的 《数学 原理 》， 
而 且 把 书 中 的 问题 写 信 告诉 了 罗素 ， 罗 素 意 识 到 Pitts 是 个 难得 的 人 才 ， 便 邀请 
Pitts 到 英国 跟随 自己 学 习 ， 但 是 因为 家 境 贫寒 Pitts 未 能 成 行 。Pitts 15 岁 的 时 候 
罗素 正好 到 芝加哥 大 学 任教 ，Pitts 得 知 后 便 离 家 出 走 到 芝加哥 见 到 了 罗素 开启 了 
自己 的 学 术 生涯 。1949 年 Donald Olding Hebb 在 他 的 经 典 著作 《组 织 行为 学 》(The 
Organization of Behavior) 中 提出 了 著名 的 Hebb 定律 (Hebbian Theory) 。Hebb 
定律 简单 来 说 就 是 ， 人 类 或 者 动物 的 神经 系统 在 感知 环境 信息 并 作出 反馈 时 ， 在 
大 脑 的 生理 层面 是 通过 改变 神经 元 突 触 的 连接 方式 实现 的 。 这 一 系列 的 工作 为 构 
建 人 工 神经 网 络 提供 了 理论 基础 。 

在 1956 年 达 特 茅 斯 会 议 之 前 ， 关 注 这 个 问题 的 研究 者 就 已 经 事实 上 分 成 了 
符号 主义 和 连接 主义 两 个 派别 ， 在 当时 的 会 议 上 符号 主义 是 主导 ， 与 会 的 学 者 
也 主要 是 符号 主义 学 派 。 但 是 事情 很 快 就 发 生 了 变化 ，1958 年 计算 机 学 家 Frank 
Rosenblatt 发 明了 由 两 层 神经 元 组 成 的 神经 网 络 并 命名 为 感知 器 (Perceptron) 。 
Perceptron 是 首 个 可 以 学 习 人 工 神经 网 络 ， 可 以 学 习 识 别 简单 的 图 像 。 这 在 当时 
引起 了 巨大 的 关注 ， 紧 接着 人 工 神 经 网 络 的 研究 获得 了 大 量 的 资金 支持 ， 许 多 学 
者 纷纷 加 入 这 个 领域 ， 这 次 热潮 持续 了 大 概 十 年 之 久 。 

但 是 由 于 公众 对 人 工 神经 网 络 的 期 望 值 过 高 ， 而 忽略 了 当时 科技 发 展 的 局 
限 性 。Perceptron 由 两 层 神经 元 构成 ， 其 中 计算 层 只 有 一 层 。 以 计算 层 划 分 ， 
Perceptron 只 能 算是 单 层 神经 网 络 ， 只 能 完成 简单 的 线性 分 类 任务 。 上 文中 提 
到 的 Minsky 由 人 工 神 经 网 络 的 支持 者 转变 成 为 了 批判 者 ， 在 1969 年 出 版 的 著 
作 《 感 知 器 : 计算 几何 学 引 论 》 (Perceptron: An Introduction to Computational 
Geometry) 中 ， 他 用 数学 严格 地 论证 了 Perceptron 的 局 限 性 ， 而 且 Perceptron 智 
能 化 水 平 与 人 们 的 期 望 相 去 甚 远 ， 甚 至 不 能 完成 异 或 (XOR) 这 种 基本 的 逻辑 
运算 。Minsky 还 认为 如 果 把 计算 层 的 数量 进行 增加 会 导致 计算 量 过 大 ， 而 且 没 
有 成 熟 的 算法 去 实现 ， 因 此 进行 深层 的 人 工 神经 网 络 研究 是 没有 意义 的 。 虽 然 
Minsky 对 深层 神经 网 络 的 观点 被 后 来 的 事实 证 明 是 错误 的 ， 但 由 于 Minsky 在 人 
工 智能 领域 有 着 巨大 的 影响 力 ， 这 本 著作 的 出 版 直接 导致 了 人 工 神经 网 络 研究 的 
第 一 次 寒冬 (AI Winter) 。 

这 个 人 工 智能 的 冬天 一 直 持续 到 了 1982 年 ， 物 理学 家 John Hopfield 发 明了 
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一 种 新 的 神经 网 络 并 以 他 的 名 字 命名 为 Hopfield 神经 网 络 。 这 一 发 现 重 新 激发 
了 很 多 研究 者 对 人 工 神经 网 络 的 热情 ，1986 年 ， 心 理学 家 David Rumelhart、 心 
理学 家 James McClelland 和 计算 机 学 家 Geoffery Hinton 提出 了 神经 网 络 反 向 传 
播 (Back Propagation，BP) 算法 ， 之 前 Minsky 质疑 神经 网 络 的 计算 量 ， 而 这 
一 算法 在 之 前 的 包括 一 个 输入 层 和 一 个 输出 层 的 神经 网 络 中 加 入 了 一 个 隐藏 层 

(Hidden Layer) ， 这 一 改进 解决 了 之 前 Perceptron 面临 的 异 或 〈(XOR) 难题 而 
且 还 可 以 满足 两 层 神经 网 络 所 需 的 计算 量 〈 这 里 的 两 层 神经 网 络 有 两 个 计算 层 ， 
神经 网 络 共 有 三 层 ) 。 之 前 的 单 层 人 工 神经 网 络 只 能 完成 线性 分 类 ， 而 双 层 的 人 
工 神经 网 络 可 以 完成 非 线性 分 类 ， 有 了 这 一 关键 进步 ， 人 工 神 经 网 络 已 经 可 以 应 
用 在 分 类 、 预 测 和 图 像 识别 等 方面 了 。 

但 是 BP 算法 加 持 的 双 层 人 工 神经 网 络 仍然 需要 当时 看 来 不 菲 的 计算 资源 ， 
训练 周期 比较 久 ， 参 数 的 调节 也 不 是 很 方便 ， 这 使 得 人 工 神经 网 络 在 20 世纪 90 
年 代 与 支持 向 量 机 (Support Vector Machine，SVM) 的 竞争 中 处 于 下 风 。 支 持 向 量 
机 的 最 初 理论 由 Vladimir Vapnik 和 Alexey Chervonenkis 在 1963 年 完成 ，1992 年 ， 
Bemhard Boser，Isabella Guyon 和 Vladimir Vapnik 通过 核 函 数 对 支持 向 量 机 进行 了 
优化 ;到 1995 年 ，Corinna Cortes 和 Vladimir Vapnik 完成 并 发 表 了 标准 的 支持 向 
量 机 。 支 持 向 量 机 可 以 工作 在 小 规模 数据 上 ， 而 且 具 有 高 效 和 不 用 调 参 等 方面 的 优 
点 。 例 如 在 识别 手写 邮政 编码 的 应 用 上 ， 支 持 向 量 机 的 正确 率 长 期 保持 着 领先 。 
因此 支持 向 量 机 成 为 了 当时 的 主流 算法 ， 人 工 神 经 网 络 的 研究 再 一 次 陷入 低潮 。 

在 第 二 次 人 工 神 经 网 络 低潮 期 间 仍然 有 一 些 学 者 坚持 人 工 神 经 网 络 方面 的 研 
究 ， 这 一 份 坚持 最 终 迎 来 了 人 工 神经 网 络 质 的 飞跃 ， 正 是 所 谓 : 念念不忘 ， 必 有 
回响 。 在 再 次 沉寂 了 10 ~ 15 年 之 后 ， 在 巨 量 的 数据 和 计算 能 力 的 支持 下 ， 人 工 
神经 网 络 以 一 种 新 的 形式 再 次 归来 。 上 文中 提 到 的 Geoffery Hinton 在 2006 年 提 
出 了 深度 信念 网 络 (Deep Belief Network，DBN) 。 与 之 前 两 层 BP 神经 网 络 不 
同 的 是 ， 深 度 信 念 网 络 通过 非 监督 的 预 训练 (Pre-training) 使 神经 网 络 有 一 个 较 
优 的 初始 权重 ， 然 后 通过 监督 的 微调 〈Fine-tuning) 来 对 整个 网 络 进行 优化 训练 。 
训练 神经 网 络 的 难度 和 所 需 的 计算 量 随 着 神经 网 络 的 层 数 增加 而 递增 ， 在 这 里 一 
种 新 的 策略 被 采用 了 。 首 先 用 非 监督 的 方式 训练 两 层 神经 网 络 ， 然 后 再 添加 一 层 
网 络 ， 并 用 已 有 的 神经 网 络 对 新 的 网 络 进行 训练 ， 以 此 类 推 逐 层 推进 。 应 用 这 个 
策略 可 以 训练 出 比 之 前 层次 要 深 得 多 的 神经 网 络 ， 这 就 是 被 称 为 深度 学 习 (Deep 
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Learming) 的 原因 。 深 度 学 习 这 一 训练 过 程 与 人 类 大 脑 的 认 知 过 程 非常 类 似 ， 人 
类 大 脑 的 学 习 过 程 也 是 层次 化 的 。 人 类 大 脑 会 先 学 习 具 象 化 的 概念 ， 然 后 才能 学 
习 抽 象 化 的 概念 ， 最 后 才 是 抽象 概念 之 间 的 相互 关系 ， 例 如 人 类 学 习 数学 的 过 程 
从 最 简单 的 算术 开始 ， 之 后 是 复杂 的 四 则 运算 、 抽 象 化 的 代数 ， 最 后 才能 学 习 更 
复杂 的 矩阵 运算 。 

深度 学 习 取 得 突破 后 便 开始 在 语音 识别 方面 攻 城 略 地 ， 真 正 让 业界 刊 目 相 
看 的 是 在 2012 年 ，Geoffery Hinton 的 团队 参加 了 大 规模 视觉 识别 挑战 (Large 
Scale Visual Recognition Challenge，LSVRC) 。 挑 战 中 要 对 ImageNet 数据 库 中 数 
百 万 张 图 片 进行 识别 ，Geoffery 的 团队 取得 了 84% 正确 率 的 好 成 绩 ， 比 第 二 名 
领先 了 至 少 10 个 百分点 。 很 快 ， 大 量 的 研究 机 构 和 顶尖 科技 公司 都 参与 到 深度 
学 习 的 研究 和 应 用 中 ， 并 不 断 地 取得 新 的 突破 ， 深 度 学 习 成 为 人 工 智 能 的 主流 方 
向 。 紧 接着 ，AlphaGo 的 成 功 让 世人 认识 到 AI 已 经 发 生 质 的 飞跃 (the Great AI 
Aweakening) 。 深 度 学 习 因 为 其 普 适 性 、 扩 展 性 和 高 度 智能 化 的 潜力 成 为 了 解决 
高 度 复 杂 和 具有 挑战 性 的 机 器 学 习 问 题 的 首选 ， 而 且 越 是 困难 的 问题 深度 学 习 越 
有 优势 ， 只 有 在 数据 量 十 分 有 限 和 已 有 非常 成 熟 的 解决 方法 的 情况 下 才 会 选择 其 
他 方法 。 因 此 ， 深 度 学 习 已 经 成 为 数据 科学 家 弹药 库 中 必 备 的 重型 武器 。 

回顾 人 工 神 经 网 络 的 发 展 ,期 间 经 历 了 两 次 冰河 期 , 可谓 是 山 重水 复 疑 无 路 ， 
柳暗花明 又 一 村 。 读 者 可 能 不 禁 要 问 : 深度 学 习 会 不 会 在 数 年 之 后 进入 新 的 冰河 
期 ? 人 工 神经 网 络 在 发 展 过 程 中 经 历 了 从 单 层 (计算 层 ) 神经 网 络 到 双 层 神经 网 
络 再 到 多 层 神经 网 络 的 两 次 飞跃 ， 两 次 冰河 期 分 别 是 这 两 次 飞跃 过 程 中 所 遭遇 的 
挫折 。 根 据 中 国 传统 哲学 中 的 道家 思想 : 道生 一 ， 一 生 二 ， 二 生 三 ， 三 生 万 物 。 
现在 正 是 处 在 三 生 万 物 的 阶段 。 从 技术 角度 解释 就 是 ， 只 要 有 足够 的 数据 和 计算 
能 力 做 支持 ， 我 们 可 以 通过 增加 神经 网 络 的 “深度 ”让 其 变 得 更 “聪明 ”， 从 而 
解决 更 加 困难 的 问题 。 如 今 不 管 是 对 神经 网 络 进行 训练 的 数据 量 ， 还 是 计算 机 的 
计算 能 力 都 已 经 不 是 问题 ， 而 且 深 度 学 习 的 科研 投入 和 商业 应 用 已 经 形成 良性 循 
环 。 因 此 ， 不 管 是 进行 语音 识别 、 图 像 识 别 ， 还 是 学 习 下 围棋 ， 或 者 是 学 习 驾 驶 
汽车 ， 这 一 切 都 在 成 为 现实 。 人 工 智能 的 应 用 方兴未艾 ， 不 过 人 工 智 能 未 必 会 在 
短 时 间 内 达到 公众 预期 的 智能 化 水 平 ， 对 于 这 一 点 将 在 下 文中 人 工 智 能 的 未 来 部 
分 展开 探讨 。 
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1. 支持 向 量 机 


支持 向 量 机 (Support Vector Machine，SVM) 与 人 工 神经 网 络 有 很 深 的 渊 
源 。 二 者 都 是 从 Perceptron〈 感 知 机 ) 发 展 而 来 。1963 年 ，Vladimir N. Vapnik 
和 Alexey Ya. Chervonenkis 发 明了 支持 向 量 机 最 初 的 算法 ; 1992 年 ，Bernhard 
E. Boser、Isabelle M. Guyon 和 Vladimir N. Vapnik 运用 核 函 数 使 支持 向 量 机 能 够 
进行 非 线 性 分 类 。® 当时 Vapnik 在 贝尔 实验 室 工作 ， 而 且 和 上 文中 提 到 的 Yann 
Lecun 是 同事 ，Yann Lecun 正 致力 于 应 用 卷 积 神经 网 络 进行 图 像 识 别 ， 二 人 经 常 
针对 人 工 神经 网 络 和 支持 向 量 机 的 优 劣 问 题 进 行 争论 。Yann Lecun 认为 支持 向 量 
机 本 质 上 等 价 于 两 层 神经 网 络 。 原 理 上 确实 如 此 ， 不 过 因为 当时 支持 向 量 机 的 理 
论 体系 更 加 完备 ， 而 且 应 用 的 效果 更 好 ， 所 以 成 为 了 主流 ， 当 然后 来 的 深度 学 习 
成 熟 后 在 很 多 应 用 场景 实现 了 反超 。 

支持 向 量 机 的 厉害 之 处 在 于 可 以 把 线性 不 可 分 的 问题 转化 为 线性 可 分 的 问 
题 。 举 个 例子 进行 简要 说 明 : 

图 2-2 中 有 黑色 和 灰色 两 种 点 ， 图 中 的 虚线 把 这 个 二 维 平面 分 成 了 两 部 分 ， 
使 得 黑色 和 灰色 的 点 完全 分 离 。 能 否 在 图 中 作出 一 条 直线 使 黑 点 全 部 位 于 直线 
的 一 侧 , 而 灰 点 完全 位 于 另 一 侧 ? 答案 是 : 不 行 , 即 黑 点 和 灰 点 是 线性 不 可 分 的 。 
支持 向 量 机 通过 核 函 数 变换 可 以 把 原 数据 集 映 射 到 更 高 维度 的 空间 中 ， 如 图 2-3 
所 示 。 


. 下 ss @ 
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图 2-2 黑 灰 二 元 分 类 问题 ， 当 在 前 的 二 维 空间 中 线性 不 可 分 


@ Boser, B. E.; Guyon, I. M.: Vapnik, V. N. (1992). “A training algorithm for optimal margin 
classifiers” . Proceedings of the fifth annual workshop on Computational learning theory—COLT '92: 144. 
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2-3 ”经 过 变化 在 更 高 维度 空间 中 实现 了 线性 可 分 


现在 图 中 虚线 所 示 的 线性 平面 就 可 以 把 黑 点 和 灰 点 完全 分 开 。 支 持 向 量 机 运 
用 核 函 数 进行 变换 背后 的 思想 是 : 如 果 问 题 在 现 有 维度 下 难以 解决 ， 可 以 尝试 在 
其 他 维度 上 进行 解决 ， 有 的 时 候 解 决 问题 的 维度 决定 了 解决 问题 的 难度 。 

支持 向 量 机 关键 在 于 选取 恰当 的 核 函数 ， 而 且 相 比 于 人 工 神经 网 络 ， 支 持 向 
量 机 只 有 少量 参数 需要 调节 ， 所 以 从 某 种 意义 上 支持 向 量 机 解决 问题 的 方式 更 加 
“优雅 ”。 支 持 向 量 机 和 人 工 神经 网 络 经 过 几 十 年 的 竞争 开始 握手 言 和 ，Vapnik 
和 Yann Lecun 在 脸 书 人 工 智 能 实验 室 再 次 成 为 同事 ， 把 深度 学 习 和 支持 向 量 机 
融合 在 一 起 的 研究 也 在 快速 发 展 中 。 把 算法 进行 配合 使 用 来 更 好 地 解决 问题 一 直 
是 人 工 智 能 领域 中 的 常用 方法 ， 下 面 将 要 介绍 的 集成 方法 就 是 这 方面 典型 的 
例子 。 


2. 集成 方法 ( Ensamble Method ) 


集成 方法 又 称 为 元 算法 (Meta-algorithm) 。 集 成 方法 可 以 是 不 同 算法 之 间 
的 集成 ， 也 可 以 是 同一 种 算法 在 不 同 条 件 下 的 集成 ， 甚 至 可 以 把 一 个 数据 集 分 
成 不 同 的 数据 子 集 分 配给 不 同 的 算法 然后 再 进行 集成 。 集 成 算法 主要 分 成 两 类 : 
Boosting 和 Bagging( 装 袋 算 法 ) ， 其 中 Bagging 是 Boostrap Aggregating ( 自 举 
汇聚 发 ) 的 简称 。Boosting 和 Bagging 相同 之 处 在 于 ， 虽 然 可 以 选择 不 同 的 分 类 
器 进行 集成 ， 但 是 在 集成 的 过 程 中 会 自始至终 使 用 同一 种 分 类 器 。 

Bagging 的 原理 简单 来 说 就 是 少数 服从 多 数 ， 首 先 从 原 数 据 集中 随机 抽样 
n 次 进而 获得 n 个 子 数据 集 ， 利 用 这 个子 数据 集训 练 出 个 分 类 器 ， 分 类 结 
果 由 这 nn 个 分 类 器 投票 决定 。Bagging 的 代表 算法 有 随机 森林 算法 (Random 
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Forests) 。 随 机 森林 由 Breiman Leo 和 Adele Cutler 于 2001 提出 并 用 Random 
Forests 注册 了 商标 。? 顾名思义 ， 随 机 森林 是 包含 有 多 个 决策 树 的 分 类 器 ， 每 棵 
树 彼此 之 间 相 互 独立 地 进行 训练 。 训 练 完 成 之 后 对 于 新 输入 的 对 和 象 进行 分 类 时 ， 
随机 森林 的 每 一 棵 树 会 给 出 自己 的 答案 进行 投票 ， 森 林 整 体会 根据 少数 服从 多 数 
的 原则 给 出 结果 。 因 此 ， 随 机 森林 是 以 并 行 的 方式 进行 工作 的 。 

Boosting 是 通过 弱 分 类 器 构造 出 一 个 强 分 类 器 ， 代 表 算 法 有 : 自 适应 提升 算 
法 (Adaboost) ， 由 Yoav Freund 和 Robert Schapire 于 1995 年 提出 。® 与 Bagging 
不 同 的 是 ，Adaboost 是 在 串 行 迭 代 过 程 中 不 断 优化 的 算法 ，AdaBoost 的 原理 类 
似 于 “ 错 题 本 ”: 对 于 难题 进行 定向 优化 。 

Wikipedia 对 于 Adaboost 原理 的 解释 是 : “Adaboost 方法 是 一 种 迭代 算法 ， 
在 每 一 轮 中 加 入 一 个 新 的 弱 分 类 器 ， 直 到 达到 某 个 预定 的 足够 小 的 错误 率 。 每 一 
个 训练 样本 都 被 赋予 一 个 权重 ， 表 明 它 被 某 个 分 类 器 选 入 训练 集 的 概率 。 如 果 某 
个 样本 点 已 经 被 准确 地 分 类 ， 那 么 在 构造 下 一 个 训练 集中 ， 它 被 选中 的 概率 就 被 
降低 ; 相反 ， 如 果 某 个 样本 点 没有 被 准确 地 分 类 ， 那 么 它 的 权重 就 得 到 提高 。 通 
过 这 样 的 方式 ，Adaboost 方法 能 “聚焦 于 ”那些 较 难 分 (更 富 信 息 ) 的 样本 上 。 
在 具体 实现 上 ， 最 初 令 每 个 样本 的 权重 都 相等 ， 对 于 第 大 次 迭代 操作 ， 我 们 就 根 
据 这些 权 重 来 选取 样本 点 ， 进 而 训练 分 类 器 Ck。 然 后 就 根据 这 个 分 类 器 ， 来 提 
高 被 它 分 错 的 样本 的 权重 ， 并 降低 被 正确 分 类 的 样本 权重 。 最 后 ， 权 重 更 新 过 的 
样本 集 被 用 于 训练 下 一 个 分 类 器 Ct。 整 个 训练 过 程 如 此 和 迭代 地 进行 下 去 。” 旦 对 
于 非 专业 的 读者 ， 这 上 段 话 可 能 不 容易 理解 ， 我 们 打 个 比方 进行 说 明 : 假设 有 一 套 
测试 卷 有 若干 个 题目 ， 一 开始 每 一 道 题目 的 分 值 都 是 一 样 的 ， 首 先 ， 分 类 器 亡 
去 参加 测试 ， 根 据 h 的 测试 结果 的 得 分 计算 出 一 个 权重 w,， 而 且 加 做 错 的 题目 
分 值 变 大 ， 做 对 的 题目 分 值 变 小 ; 然后 分 类 器 有 去 完成 测试 ， 题 目 不 变 但 是 分 
值 是 根据 hh 的 结果 调整 之 后 的 分 值 ， 同 样 根据 h, 的 结果 计算 出 权重 w， 然 后 调 
整 题 目 分 值 : 户 做 错 的 题 分 值 变 大 ， 做 对 的 分 值 变 小 。Adaboost 的 集成 分 类 器 是 
由 每 个 分 类 器 和 相对 应 的 权重 构成 的 


@ Breiman, Leo (2001). “Random Forests”. Machine Leaming. 45 (1): 5-32. 

@ Freund, Yoav: Schapire, Robert E. A Decision-Theoretic Generalization of on-Line Leaming and an 
Application to Boosting. 1995. 

@ https://zh.wikipedia.org/wiki/AdaBoost. 
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H=wi* hitw,* h, 

迭代 以 上 的 过 程 ， 总 的 分 类 器 会 逐渐 演变 成 为 : 

H= wi hitw,* hytws* hy" 

直到 及 满足 一 定 的 条 件 : 例如 错误 率 低 于 某 个 闵 值 。 最 终 的 分 类 器 数学 表 
达 式 为 : 


H(W) =sign[ $mwh (0)] 


图 2-4 为 Adaboost 算法 示意 图 。 


原始 数据 集 更 新 权 值 的 数据 集 更 新 权 值 的 数据 集 


图 2-4 Adaboost 算法 示意 图 


根据 Adaboost 的 工作 过 程 ， 我 们 可 以 发 现 Adaboost 的 特点 是 : 首先 ， 以 串 
行 的 方式 逐步 推进 : 只 有 获得 了 上 一 次 迭代 的 结果 才能 进行 下 一 次 的 欠 代 ; 其 次 ， 
把 握 主 要 矛盾 : 对 于 测试 错误 的 题目 增加 分 值 ， 类 似 于 “其 赏 ”; 最 后 ， 以 能 力 
为 标准 : 每 个 分 类 器 的 权重 反映 的 是 该 分 类 器 在 当前 情况 下 解决 问题 的 能 力 。 

因此 Adaboost 的 精 角 反映 的 正 是 其 名 称 : Adaptive boosting ( 自 适 应 提升 ) : 
不 断 地 适应 环境 ， 提 升 自我 。 这 应 该 是 最 励志 的 算法 了 。 


3. 关联 分 析 


在 开始 讲 关联 分 析 之 前 ， 我 们 先 来 看 一 首 词 : 
西厢记 。 长 亭 送 别 
得 云 天 ， 黄 花 地 ， 西 风 紧 。 北 雁 南 飞 。 
晓 来 谁 染 霜 林 醉 7 总 是 离 人 泪 。 
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这 首 词 中 描述 了 一 系列 的 自然 现象 ， 包 括 西风 紧 、 北 雁 南 飞 和 霜 叶 由 青 变 红 
等 。 从 我 们 的 生活 经 验 来 看 ， 这 些 自然 现象 都 在 秋天 同时 出 现 ， 那 它们 彼此 之 间 
存在 着 什么 样 的 关系 呢 ? 关联 分 析 就 是 用 来 研究 不 同 的 事物 之 间 相 互 关系 的 一 种 
方法 。 

从 大 规模 数据 集中 寻找 物品 间 的 隐 含 关系 被 称 为 关联 分 析 (Association 
Analysis) 。 进 行 关联 分 析 是 为 了 通过 挖掘 这 些 隐 藏 着 的 相互 关系 来 对 未 来 进行 
预测 。 如 果 我 们 发 现 A 和 B 相关 联 ， 就 可 以 通过 对 A 进行 观测 进而 对 B 进行 判 
断 和 预测 。 这 其 实 是 我 们 经 常 运用 在 生活 中 的 朴素 智慧 , 例如 苏东坡 的 诗 云 :“ 竹 
外 桃花 三 两 枝 ， 春 江水 暖 鸭 先知 。” 就 是 通过 鸭 的 行为 判断 水 的 温度 。 

关联 分 析 由 R. Agrawal 于 1993 年 提出 。? 最 开始 被 用 于 零售 业 的 购物 篮 分 
析 (Market Basket Analysis) ,我们 就 以 购物 篮 分 析 作为 例子 对 关联 分 析 进 行 介绍 。 
发 现 商品 购买 的 关联 规则 可 以 帮助 商家 制定 有 针对 性 的 市 场 营销 策略 ， 包 括 市 场 
规划 、 广 告 策划 和 分 类 设计 等 。 例 如 ， 超 市 的 经 理会 关心 类 似 于 这 样 的 问题 : 顾 
客 在 购买 牛奶 的 同时 是 否 会 购买 面包 ? 

要 回答 这 个 问题 ， 需 要 先 了 解 关联 分 析 的 几 个 概念 。 我 们 就 以 零售 业 的 购物 
篮 分 析 为 例 进行 说 明 。 超 市 的 交易 数据 中 ， 每 一 次 的 商品 交易 都 是 由 物品 项 组 成 
的 集合 。 

频繁 项 集 (Frequent Item Set) 是 频繁 出 现 的 物品 的 集合 。 关 联 规则 描述 的 
是 两 个 物品 之 间 的 关联 关系 (A 一 B) 。 例 如 牛奶 一 面包 的 关联 规则 描述 的 是 顾 
客 购买 了 牛奶 再 购买 面包 的 可 能 性 。 一 个 项 集 的 支持 度 〈Support) 是 包含 该 项 
集 的 交易 数 占 所 有 交易 数 的 百分比 。 置 信 度 〈Confidence) 是 对 于 某 一 条 具体 的 
关联 规则 (A 一 B) ，A 出 现 的 情况 下 B 出 现 的 条 件 概率 。 例 如 : 1000 个 顾客 
购买 了 商品 形成 了 1000 条 交易 记录 ， 其 中 100 个 人 购买 了 牛奶 ;150 个 人 购买 
了 面包 ; 60 个 人 同时 购买 了 面包 和 牛奶 。 那么 牛奶 一 面包 关联 关系 的 支持 度 是 
60/1000=6%; 置信 和 度 是 60/100=60%。 支 持 度 低 的 规则 具有 偶然 性 。 从 商务 角度 
看 ， 低 支持 度 意 味 着 这 样 的 商品 组 合 顾客 很 少 同 时 购买 ， 因 此 促销 没有 意义 。 因 
此 支持 度 用 来 删除 没有 意义 的 规则 。 置 信 度 反映 了 通过 规则 进行 推理 的 可 靠 性 。 
仍然 以 牛奶 和 面包 为 例 ， 置 信 度 越 高 意味 着 购买 了 牛奶 之 后 ， 购 买 面包 的 可 能 性 


@ Agrawal, Rakesh, Tomasz Imieliiski, and Arun Swami. “Mining association rules between sets of 
items in large databases.” Acm sigmod record. Vol. 22. No. 2. ACM., 1993. 
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越 高 。 支 持 度 大 于 最 小 支持 度 阔 值 ， 并 且 信 任 度 大 于 置信 度 阔 值 的 关联 规则 称 为 
强 规则 : 否则 为 弱 规 则 。 支 持 度 和 置信 度 都 是 人 为 设 定 的 。 仍 然 以 牛奶 和 面包 
为 例 ， 如 果 最 小 支持 度 阔 值 小 于 6%， 并 且 最 小 信任 度 阔 值 小 于 60%， 则 有 : 
牛奶 和 面包 的 关联 规则 为 强 规则 。 数 据 挖掘 是 对 强 规则 进行 挖掘 。 关 联 规则 是 
支持 度 和 信任 度 分 别 满足 用 户 给 定 阔 值 的 规则 。 实 现 关 联 分 析 的 主要 有 Apriori 
和 FP-growth (Frequent Pattern-growth) 算法 。 在 此 ， 本 书 不 对 算法 本 身 做 深入 
介绍 ， 有 兴趣 的 读者 可 以 查阅 数据 挖掘 算法 或 是 机 器 学 习 的 相关 资料 。 

从 关联 分 析 相 关 概 念 ， 我 们 可 以 看 出 关联 性 〈Association) 是 以 统计 为 基础 
的 现象 描述 。 关 联 性 的 强度 可 以 由 相关 性 〈Correlation) 进行 量化 描述 。 相 关系 
数 用 表示， 取 值 在 -1 和 1 之 间 。r 为 -1 是 两 个 变量 为 负 相关 ; "为 1 是 两 个 
变量 为 正 相 关 。r 的 绝对 值 大 于 0.8 通常 就 认为 两 个 变量 高 度 相 关 。 

关联 性 和 相关 性 都 是 统计 结果 的 描述 ,与 因果 性 (Causation) 有 着 本 质 的 区 别 。 

因果 性 : 事物 或 现象 分 为 原因 和 结果 ,原因 和 结果 必须 同时 具有 必然 的 联系 。 

因此 关联 性 不 能 和 因果 性 画 等 号 。 一 个 著名 的 例子 是 ， 冰 淇 淋 销 售 量 和 渴 水 
人 数 有 着 正 向 强 相 关 ， 我 们 是 否 能 够 说 冰淇淋 销量 的 增加 引起 了 溺水 人 数 的 增 
加 ? 对 于 这 个 例子 ， 我 们 通过 常识 就 可 以 判断 两 者 之 间 并 没有 直接 的 因果 关系 ， 
更 合理 的 解释 是 ， 气 温 升 高 的 时 候 冰 淇 淋 的 销售 数量 和 游泳 的 人 次 都 会 增加 ， 而 
游泳 人 次 的 增加 会 导致 溺水 的 可 能 性 增加 。 在 进行 大 数据 关联 分 析 的 时 候 ， 可 能 
会 发 现 一 些 意 想 不 到 的 关联 关系 ， 这 些 关联 关系 的 背后 可 能 存在 变量 之 间 的 因果 
关系 ， 也 可 能 不 存在 。 通 常 来 说 ， 大 数据 的 关联 分 析 在 发 现 关 联 关系 之 后 并 不 一 
定 会 去 探寻 背后 是 否 会 有 关系 ， 而 是 侧重 于 对 已 经 发 现 的 关联 关系 的 利用 。 


4. 完美 的 算法 在 哪里 


上 面 介绍 的 深度 学 习 、 支 持 向 量 机 和 集成 方法 是 应 用 范围 最 广 而 且 解 决 问题 
能 力 最 强 的 几 种 算法 ， 其 中 重点 介绍 了 现在 如 日 中 天 的 深度 学 习 算法 。 有 的 读者 
心中 可 能 会 开始 出 现 疑问 ， 这 些 算法 之 间 该 如 何 选择 ? 笔者 在 生活 中 就 经 常 被 问 
到 类 似 的 问题 “ 某 某 算法 和 某 某 算法 哪个 更 好 ? ”“ 深 度 学 习 这 么 厉害 ， 会 不 
会 一 统 江湖 ? ” 

算法 选择 是 数据 分 析 过 程 中 的 一 个 重要 问题 ， 是 对 数据 科学 家 的 经 验 和 智慧 
的 考验 ， 有 的 时 候 甚至 比 算法 的 具体 实现 还 要 重要 ， 这 个 过 程 类 似 于 医生 通过 症 
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状 对 疾病 进行 确诊 并 选择 治疗 方案 。 

在 技术 层面 上 ， 有 严格 的 方法 对 算法 进行 评估 和 验证 ， 不 过 对 算法 的 评价 并 
不 是 单一 维度 而 是 多 维度 的 , 不 同 的 算法 很 有 可 能 在 不 同 维度 上 各 有 优势 。 例 如 ， 
即使 对 于 二 元 分 类 ( 即 0 与 1 二 选 一 ) 的 评价 指标 就 包括 了 : 准确 率 (Accuracy) 、 
错误 率 〈Errorrate) 、 精 确 率 〈Precision) 和 召回 率 (Recall) 等 。 而 且 ， 有 的 维 
度 之 间 会 有 内 生性 矛盾 ， 算 法 很 难 在 这 些 维度 上 面 同 时 做 得 很 好 ， 例 如 偏差 方差 
权衡 (Bias Variance Trade off) ， 算 法 模型 无 法 使 Bias 和 Variance 同时 最 小 化 ， 
必须 做 出 取舍 ， 鱼 与 熊 掌 不 可 兼 得 。 这 就 类 似 于 特效 药 只 对 特定 的 疾病 有 效 ， 而 
有 的 药 对 治疗 很 多 疾病 都 有 帮助 ， 但 是 都 没有 立竿见影 的 效果 。 

另外 , 除了 对 算法 的 结果 进行 评估 以 外 , 算法 所 需 资源 也 会 影响 算法 的 选择 ， 
算法 对 于 数据 集 和 计算 资源 的 要 求 以 及 训练 的 难度 都 是 重要 的 约束 条 件 ， 例 如 ， 
有 的 算法 只 有 在 数据 达到 一 定 规模 的 前 提 下 才能 发 挥 出 威力 ， 否 则 只 能 是 巧 妇 难 
为 无 米 之 炊 。 

而 且 这 些 约束 条 件 的 影响 还 会 在 商业 层面 上 体现 出 来 ， 对 数据 和 计算 资源 要 
求 越 高 以 及 训练 难度 越 大 都 意味 着 更 高 的 成 本 。 例 如 ， 深 度 学 习 相 比 于 其 他 算法 
E 够 解决 更 复杂 的 问题 但 与 此 同时 成 本 也 更 高 ， 因 此 深度 学 习 对 于 相对 简单 的 问 
题 反 而 不 是 最 好 的 选择 ， 例 如 ， 上 文中 介绍 的 关联 分 析 就 可 以 使 用 相对 简单 的 算 
法 快速 实现 。 

因此 ， 现 在 没有 任何 一 种 算法 ， 包 括 深度 学 习 ， 能 够 在 各 个 层面 和 各 个 维度 
上 优 于 其 他 算法 ， 笔 者 认为 这 样 的 一 个 完美 算法 可 能 在 未 来 也 不 会 出 现 ， 事 物 都 
是 相互 联系 和 相互 制约 的 ， 所 谓 : “天 之 道 ， 其 犹 张 弓 与 ? 高 者 抑 之 ， 下 者 举 之 ; 
有 余 者 损 之 ， 不 足 者 与 之 。 天 之 道 ， 损 有 余 而 补 不 足 。” 

请 记 住 ， 这 些 算法 会 构成 一 个 系统 ， 算 法 的 选择 本 质 是 在 矛盾 中 进行 取舍 。 
就 如 同 交通 工具 一 样 ， 不 同 的 解决 方案 适用 于 不 同 的 情况 ， 人 类 发 明 的 所 有 交通 
工具 中 在 科技 上 最 尖端 的 而 且 唯一 能 够 把 人 类 送出 地 球 的 是 用 运载 火箭 搭载 载 人 
飞船 ， 但 是 在 这 一 技术 被 发 明之 后 ， 其 他 的 交通 工具 包括 自行 车 、 汽 车 和 飞机 等 
并 没有 因此 而 消失 ， 我 们 能 说 载 人 飞船 是 比 飞 机 更 好 的 交通 工具 吗 ? 我 们 甚至 不 
能 说 载 人 飞船 是 比 自行 车 更 好 的 交通 工具 。 诚 然 ， 自 行车 无 法 把 人 类 送 入 太空 ， 
但 是 我 们 也 不 能 乘坐 载 人 飞船 去 小 区 旁边 的 超市 购物 啊 。 这 就 是 为 什么 我 们 说 这 
些 算法 在 一 起 会 构成 一 个 系统 ， 就 像 各 种 生物 会 构成 生态 系统 ， 各 种 武器 会 构成 
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作战 系统 ， 使 用 场景 越 类 似 的 算法 之 间 越 有 可 能 存在 竞争 关系 ， 的 确 会 存在 优胜 
劣 汰 的 情况 ;但 是 应 用 于 不 同 场景 的 算法 之 间 并 不 存在 优 劣 的 对 比 ， 所 以 更 不 存 
在 所 谓 完美 的 算法 了 。 


中 网 人 工 智能 的 未 来 


人 工 智能 的 研究 和 应 用 正在 如 火 如 蔡 地 展开 ， 而 且 取 得 了 令 人 瞩目 的 进步 ， 
但 是 相 比 于 人 工 智能 先驱 者 要 实现 的 目标 ， 我 们 还 只 是 向 前 迈进 了 很 小 的 一 步 。 
John McCharthy、Marvin Minsky 和 其 他 一 些 在 人 工 智能 领域 具有 影响 力 的 人 都 
不 满足 于 人 工 智 能 研究 把 重点 放 在 优化 特定 任务 的 应 用 上 ， 他 们 认为 研究 的 重点 
应 该 回 到 人 工 智 能 领域 最 核心 的 问题 上 : 创造 出 人 类 智能 水 平 的 人 工 智 能 。 因 为 ， 
到 目前 为 止 ， 人 类 所 实现 的 人 工 智 能 都 是 弱 人 工 智 能 (Weak AI、Narrow ATI、 
Artificial Narrow Intelligence) ， 弱 人 工 智 能 只 具有 某 一 方面 的 能 力 ， 只 有 完成 
单一 类 型 的 任务 ， 包 括 在 围棋 上 已 经 无 敌 的 AlphaGo 也 只 是 弱 人 工 智 能 ， 因 为 
AlphaGo 只 有 围棋 方面 的 能 力 。 弱 人 工 智能 并 不 具有 人 类 完整 的 认 知 能 力 ， 即 使 
在 设计 上 让 弱 人 工 智能 看 上 去 有 多 么 智慧 都 离 上 文中 人 工 智 能 的 定义 有 着 巨大 的 
差距 。 人 工 智 能 的 先驱 者 们 都 强调 人 工 智 能 的 研究 应 该 更 多 地 投入 到 强人 工 智 能 
的 研究 ， 而 不 是 弱 人 工 智 能 的 应 用 。 

所 谓 强 人 工 智 能 (Stronge AI，Artificial General Intelligence) 是 指 至 少 具备 
与 人 类 同等 智慧 的 人 工 智 能 。 强 人 工 智能 是 在 认 知 、 抽 象 思维 、 行 为 等 各 个 方 
面 都 达到 人 类 能 力 的 人 工 智 能 。 回 顾 上 文中 人 工 智 能 的 定义 ， 其 中 一 类 就 是 以 人 
的 大 脑 作为 目标 ， 因 此 实现 强人 工 智 能 是 人 工 智 能 领域 的 主要 任务 之 一 。 但 是 要 
实现 强人 工 智 能 比 实现 弱 人 工 智 能 要 困难 得 多 ， 因 为 人 类 的 大 脑 是 一 个 超级 复杂 
的 系统 。 著 名 的 计算 机 科学 家 、 图 灵 奖 和 约翰 。， 冯 。 诺 依 曼 奖 得 主 Donald Knuth 
(高 德 纳 ) 关于 人 工 智能 现 阶 段 的 发 展 状况 有 一 句 名 言 ， 现 阶段 的 人 工 智能 都 
可 以 成 功 完 成 需要 人 类 “思考 ”领域 的 任务 ， 但 要 完成 人 类 和 动物 不 需要 “ 思 
考 ” 就 能 完成 的 任务 则 困难 得 多 。® (AI has by now succeeded in doing essentially 
everything that requires “thinking” but has failed to do most of what people and 


@ Superintelligence: Paths, Dangers, Strategies, Nick Bostrom, 2014: 17. 
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animals do “without thinking” —that, somehow, is much harder!) 
我 们 把 现 阶段 人 工 智能 的 实现 水 平和 人 工 智能 所 要 实现 的 人 脑 功能 从 易 到 难 
做 一 个 简单 的 比较 。 


存储 一 记忆 和 能力， 人工 智能 远 胜 于 人 类 大 脑 ， 构 建 在 计算 机 之 上 的 人 工 智能 
的 存储 能 力 理论 上 可 以 不 断 升 级 扩展 ， 而 且 通 过 合理 的 设计 能 够 保证 几乎 不 会 遗 
失 数据 ， 这 方面 最 极端 的 例子 就 是 搜索 引擎 ， 人 工 智 能 具有 压倒 性 的 优势 。 

数学 计算 和 届 辑 判断 ， 人 工 智 能 的 速度 远 快 于 人 类 大 脑 。 相 比 于 人 类 大 脑 其 
他 功能 ， 数 学 计算 和 逻辑 判断 并 不 是 大 脑 的 强项 ， 因 为 人 类 大 脑 是 人 类 进化 的 产 
物 ， 数 学 计算 和 逻辑 判断 并 不 是 保证 生存 的 关键 能 力 ， 人 类 进化 有 着 数 百 万 年 的 
历史 ， 而 人 类 系统 性 地 使 用 数学 不 过 才 3000 年 的 历史 ， 这 也 是 为 什么 人 类 大 脑 
必须 有 意识 地 进行 数学 计算 和 逻辑 判断 。 然 而 计算 机 却 不 一 样 ， 计 算 机 被 发 明 出 
来 的 目的 就 是 进行 数学 计算 和 逻辑 判断 ， 而 且 计算 机 系统 架构 也 是 构建 在 数学 和 
轴 辑 模型 之 上 的 。 因 此 ， 任 何以 数学 计算 和 逻辑 判断 的 博弈 ， 人 工 智 能 即便 是 弱 
人 工 智能 都 会 超越 人 类 。 从 Samuel 发 明了 依托 于 机 器 学 习 的 能 下 西洋 棋 的 程序 ， 
从 方法 论 上 人 工 智 能 在 各 种 棋 类 上 挑战 人 类 就 已 经 没有 障碍 ， 所 需要 的 只 是 计算 
E 力 支持 和 合适 的 算法 。 数 学 计算 和 逻辑 判断 就 是 高 德 纳 所 说 的 典型 的 需要 人 类 
“思考 ”才能 完成 的 任务 ， 在 这 一 点 上 是 在 用 人 类 大 脑 的 弱项 在 和 人 工 智能 的 强 
项 进行 竞争 。 

Donald Knuth 所 说 的 人 类 和 动物 不 需要 “思考 ”就 能 完成 的 任务 又 是 指 什么 
呢 ? 是 不 受 主观 意识 控制 的 ， 大 脑 会 自动 加 载 和 运行 的 功能 ， 包 括 : 视觉 、 语 言 
和 运动 等 。 要 实现 这 些 功 能 其 实 相当 复杂 ,只 是 我 们 对 这 些 功 能 习以为常 了 而 已 。 
举 个 例子 ， 当 你 看 到 一 只 蚊子 落 到 了 你 的 一 只 用 膊 上 试图 叮咬 你 ， 你 立刻 挥 起 另 
一 只 用 彩 赶 走 它 ， 这 是 一 瞬间 就 能 完成 的 简单 过 程 ， 而 这 个 过 程 要 能 够 完成 ， 首 
先 当 你 的 眼睛 看 到 这 只 蚊子 时 ， 大 脑 能 够 从 视觉 图 像 中 识别 出 这 是 一 只 蚊子 一 一 
这 个 蚊子 的 实体 会 和 蚊子 的 概念 对 应 起 来 ， 然 后 会 从 记忆 中 获得 与 蚊子 相关 的 经 
验 和 知识 一 一 被 蚊子 叮咬 之 后 痛 痒 的 感受 ， 最 后 决定 采取 行动 一 一 大 脑 会 通过 神 
经 系统 控制 用 膊 、 手 臂 和 手 上 肌肉 与 肌 妥 来 完成 动作 并 且 精 确 地 控制 力度 和 方 
位 。 所 以 在 这 一 瞬间 其 实 大 脑 完成 了 大 量 的 工作 。 要 完成 同样 的 一 个 过 程 对 于 人 
工 智能 来 说 有 多 困难 呢 ? 尚且 不 说 完成 整个 过 程 ， 要 完成 其 中 的 每 一 个 步骤 都 不 
容易 。 以 视觉 识别 为 例 , 视觉 神经 把 获得 的 视觉 图 像 不 断 地 发 送 给 大 脑 进行 处 理 ， 
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大 脑 要 不 断 地 快速 识别 出 图 像 中 的 物体 和 与 之 相关 联 的 意义 。 从 来 没有 见 过 蚊子 
的 儿童 第 一 次 看 见 蚊 子 会 意识 到 这 是 一 个 “不 认识 ”的 事物 一 一 大 脑 里 没有 任何 
一 个 概念 可 以 和 这 个 事物 相 匹配 ， 但 大 脑 会 记录 这 个 事物 的 特征 并 且 抽象 出 一 个 
概念 与 之 对 应 ; 然而 一 个 昆虫 学 家 看 见 蚊子 的 时 候 ， 不 仅 可 以 判断 出 这 是 一 只 蚊 
子 而 且 还 会 在 大 脑 中 关联 与 蚊子 相关 的 知识 ， 例 如 ， 蚊 子 的 生活 习性 和 是 否 会 传 
染 疾病 等 。 为 了 模仿 人 类 大 脑 的 图 像 处 理 能 力 ， 谷 歌 公司 在 2012 年 用 1.6 万 台 
计算 机 的 处 理 器 构建 了 当时 最 大 的 一 个 人 工 神经 网 络 系统 一 一 “谷歌 大 脑 ”， 用 
来 模拟 人 类 的 图 像 学 习 过 程 ， 谷 歌 大 脑 要 进行 学 习 的 第 一 个 任务 是 从 1000 万 张 
数字 图 片 中 自动 学 习 识别 猫咪 。 谷 歌 大 脑 学 会 了 从 各 种 猫咪 的 图 片 中 抽象 出 “ 猫 ” 
的 概念 : 谷歌 大 脑 构建 出 了 一 张 “理想 ”的 猫咪 图 片 。 虽 然 谷 歌 大 脑 的 正确 率 远 
远 领 先 于 其 他 机 器 学 习 方法 达到 80%， 但 是 仍然 远 远 低 于 人 类 大 脑 的 水 平 。 在 
2015 年 ， 谷 歌 的 人 工 智能 就 曾 错误 地 把 黑人 的 照片 标注 为 大 猩猩 ， 引 发 了 争议 。 
谷歌 在 研究 后 发 现在 技术 上 解决 这 个 问题 很 复杂 ， 就 取消 了 大 猩猩 这 个 标签 。 也 
就 是 说 ， 如 果 这 个 技术 问题 没有 得 到 解决 ， 对 于 人 工 智 能 来 说 大 猩猩 是 “不 存在 ” 
的 。 这 还 不 是 最 困难 的 地 方 ， 我 们 再 来 看 看 更 加 复杂 的 情况 ， 例 如 ， 卡 通 中 拟人 
化 的 猫 一 有 着 人 类 的 装扮 和 行为 ， 人 类 大 脑 可 以 判断 出 : 嗯 ， 这 是 一 只 猫 ， 但 
是 和 现实 中 的 猫 又 不 完全 相同 ， 又 例如 在 音乐 剧 《 猫 》 中 ， 演 员 会 装扮 成 猫 的 形 
态 并 且 模仿 猫 的 行为 ， 人 类 大 脑 可 以 判断 出 这 些 是 人 类 演员 在 模仿 猫 。 但 是 ， 人 
工 智能 在 这 两 种 情况 下 都 难以 做 出 正确 的 判断 。 

当然 ， Donald Knuth 的 论述 也 有 不 准确 的 地 方 。 其 一 ， 在 完成 不 需要 “思考 ” 
的 任务 方面 ， 人 类 的 大 脑 不 仅 优 于 人 工 智能 ， 而 且 也 优 于 其 他 动物 的 大 脑 。 例 如 ， 
大 脑 需要 通过 神经 系统 控制 身体 的 肌肉 来 完成 各 种 运动 动作 ， 例 如 行走 、 奔 跑 和 
跳跃 等 。 人 类 平衡 能 力 和 弹跳 能 力 等 明显 不 如 猫 科 动物 ， 但 是 这 种 限制 是 来 自 于 
人 类 的 小 脑 和 身体 的 构造 ， 而 不 是 人 类 的 大 脑 。 人 类 可 以 通过 学 习 完 成 很 多 其 他 
的 动作 行为 ， 例 如 ， 人 攀岩、 搏击 和 游泳 等 。 人 类 的 大 脑 不 仅 可 以 学 会 游泳 ， 而 且 
包括 不 同 的 泳 姿 ， 但 对 于 猫 科 动 物 来 说 这 就 很 困难 ， 更 重要 的 是 人 类 大 脑 学 会 游 
泳 之 后 ， 在 完成 游泳 的 一 系列 动作 的 时 候 是 没有 “思考 ”的 。 为 什么 说 没有 “ 思 
考 ” 呢 ? 首先 ， 如 果 我 们 要 构建 一 个 人 形 机 器 人 通过 人 工 智能 来 学 习 游泳 ， 这 个 
人 工 智 能 系统 需要 进行 流体 力学 、 能 量 传导 和 各 个 关节 的 自由 度 等 方面 的 计算 ， 
要 完成 这 样 一 项 任务 需要 包括 人 工 智 能 专家 、 物 理学 家 和 控制 论 专家 等 方面 的 专 
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业 团 队 才 有 可 能 获得 成 功 。 但 是 ， 我 们 在 游泳 的 时 候 这 些 计 算 都 没有 在 大 脑 中 有 
意识 地 进行 ， 我 们 就 可 以 控制 游泳 的 姿态 和 速度 了 。 其 二 ， 在 完成 需要 “思考 ” 
的 任务 方面 ， 人 类 大 脑 相 比 于 人 工 智 能 在 很 多 方面 仍然 有 不 可 比拟 的 优势 ， 包 括 
审美 、 道 德 价值 判断 和 创造 的 联想 与 直觉 。 例 如 ， 现 在 人 工 智能 已 经 可 以 撰写 新 
闻 稿 ， 但 是 仍然 无 法 创作 出 可 以 流传 后 世 的 伟大 艺术 作品 。 最 后 ， 令 人 惊叹 的 是 
人 类 大 脑 的 这 些 能 力 是 可 以 并 行 的 。 例 如 ， 我 们 可 以 一 边 跑步 一 边 听 歌 一 边 欣赏 
周围 的 风景 ， 同 时 思考 其 他 问题 。 

因此 ， 人 类 大 脑 很 多 方面 的 功能 相 比 于 现 阶段 的 弱 人 工 智能 都 具有 显著 的 优 
势 ， 最 核心 的 是 人 类 大 脑 具 有 自我 意识 ， 能 够 通过 学 习 进行 持续 优化 和 多 样 化 ， 
与 此 同时 还 具备 通用 问题 解决 能 力 。 这 也 是 为 什么 实现 强人 工 智 能 是 如 此 的 困难 
我 们 甚至 不 知道 什么 样 的 方法 能 够 实现 强人 工 智能 。 但 毫 无 疑问 的 是 强人 工 智能 
一 旦 实现 ， 世 界 将 发 生 深 刻 而 彻底 的 变革 。 另 外 ， 将 人 类 智能 与 人 工 智 能 相 结 合 
(Hybrid Thinking) 也 是 现 阶段 研究 的 重要 方向 。 强 人 工 智能 对 于 世界 的 影响 以 
及 混合 智能 都 是 非常 宏大 的 话题 ， 在 此 不 做 展开 。 

人 工 智能 的 未 来 的 发 展 还 会 受到 其 他 科学 学 科 的 影响 。 如 果 把 人 工 智 能 比喻 
为 一 棵 大 树 的 话 ， 它 不 是 孤立 地 生长 在 荒原 之 上 ， 而 是 植 根 于 沃土 中 ， 生 长 在 从 
林 里 。 在 学 科 划 分 上 ， 人 工 智能 虽然 是 计算 机 科学 的 一 个 分 支 ， 但 同时 也 是 一 个 
交叉 学 科 ， 例 如 ， 什 么 是 智能 这 个 问题 就 已 经 超越 了 计算 机 科学 的 范畴 。 人 工 智 
能 的 诞生 和 发 展 是 以 其 他 众多 学 科 为 基础 的 ， 包 括 了 哲学 、 物 理学 、 数 学 、 神 经 
科学 、 心 理学 、 语 言 学 、 控 制 论 、 经 济 学 等 ， 当 然 还 有 计算 机 科学 的 众多 其 他 分 
支 。 纵 观 人 工 智 能 的 发 展 历程 ， 有 两 个 关键 因素 持续 影响 着 人 工 智能 的 发 展 ， 其 
一 ， 是 要 有 足够 的 数据 提供 给 人 工 智能 进行 学 习 ; 其 二 ， 是 要 有 足够 的 计算 能 力 
和 资源 支持 人 工 智 能 系统 的 计算 。 在 大 数据 时 代 ， 数 据 量 已 经 不 成 为 问题 ， 然 而 
计算 机 的 计算 能 力 与 人 工 智 能 之 间 的 关系 则 更 为 复杂 。Ray Kurzweil 是 著名 的 人 
工 智 能 领域 专家 、 谷 歌 公司 的 技术 总 监 、 畅 销 书 《 奇 点 将 至 》 (The Singularity 
三 Near) 的 作者 。Ray Kurzweil 是 人 工 智能 领域 坚定 的 乐观 派 ， 他 预测 实现 强人 
工 智能 的 时 间 要 短 于 其 他 人 工 智能 从 业者 的 预测 。 然 而 即使 是 Ray Kurzweil 也 
承认 人 工 智能 并 没有 发 生 指 数 式 增长 ， 而 是 在 层级 式 的 增长 。 他 说 : “人 工 智 能 
每 上 一 个 台阶 ， 都 需要 计算 和 算法 的 复杂 度 实 现 指数 级 提升 …… 所 以 我 们 可 以 预 
计 线 性 的 层级 式 增长 ， 因 为 每 上 一 个 台阶 都 需要 在 复杂 度 上 实现 指数 级 增长 ， 而 
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我 们 在 这 方面 的 能 力 的 确实 现 了 指数 级 进步 。” 即 计算 能 力 的 指数 增长 才能 支撑 
起 人 工 智能 的 线性 增长 ， 因 此 要 实现 强人 工 智 能 毫 无 疑问 需要 更 大 的 计算 能 力 ， 
但 是 我 们 现在 其 实 并 不 知道 具体 需要 多 大 规模 的 计算 能 力 才能 实现 这 一 目标 。 人 
工 智能 领域 对 于 要 实现 强人 工 智能 所 需 的 计算 量 有 诸多 的 预测 ， 这 些 预 测 通常 是 
以 人 类 大 脑 的 神经 元 数量 和 计算 能 力作 为 参考 ， 但 是 这 种 预测 未 必 科学 。 研 究 发 
现在 大 的 趋势 上 确实 是 越 是 智能 的 生物 ， 大 脑 神经 元 的 数量 越 大 。 如 果 我 们 用 大 
脑 神经 元 的 数量 进行 排序 ， 会 有 灵长目 哺乳 动物 > 其 他 哺乳 动物 和 鸟 类 之 爬行 动 
物 > 鱼 类 > 昆虫 ， 当 然 具体 某 一 个 物种 的 排序 可 能 会 有 差异 ， 但 是 大 的 趋势 是 这 
样 。® 然而 有 意思 的 是 人 类 大 脑 神经 元 的 数量 和 大 猩猩 大 脑 的 神经 元 数量 并 没有 
数量 级 的 差别 ， 或 者 单 从 大 脑 神经 元 数量 的 角度 来 看 ， 人 类 和 大 猩猩 的 差别 要 小 
于 大 猩猩 和 猫 的 差别 ， 而 且 人 类 也 不 是 大 脑 神经 元 数量 最 多 的 哺乳 动物 ， 大 和 象 的 
脑 神 经 元 数量 大 约 是 人 类 的 3 倍 。 因 此 ， 我 们 可 以 说 在 生物 进化 过 程 中 ， 生 理 上 
更 加 强大 和 更 加 复杂 的 大 脑 只 是 实现 更 高 智能 的 必要 条 件 ， 而 不 是 充分 条 件 ， 人 
类 相 比 于 其 他 哺乳 动物 在 智能 上 有 质 的 差别 ， 但 是 我 们 并 不 清楚 这 种 飞跃 是 如 何 
实现 的 。 对 于 人 工 智 能 而 言 ， 计 算 能 力 的 量变 是 否 会 产生 智能 水 平 的 质变 呢 ? 如 
果 会 的 话 ， 这 种 质变 会 在 什么 时 候 以 什么 方式 产生 呢 ? 对 于 这 些 问 题 ， 我 们 目前 
为 止 其 实 并 没有 确切 的 答案 。 强 人 工 智能 如 同 云雾 中 若隐若现 的 山峰 ， 我 们 还 在 
兰若 找寻 上 山 的 道路 。 

综 上 所 述 ， 我 们 正 处 在 大 数据 与 弱 人 工 智 能 结合 的 大 规模 应 用 浪潮 之 中 ， 各 
种 变化 已 经 让 人 应 接 不 暇 ; 强人 工 智能 尚且 处 于 孕育 状态 ， 不 过 一 旦 实现 ， 将 是 
更 加 深刻 的 变革 。 


5 | 科幻、 魔法 与 魔 戒 


延伸 阅读 | 
| 长 期 以 来 人 工 智 能 都 是 科幻 作品 中 热门 题材 ， 然 而 AlphaGo 的 


| 出现 让 人 们 认识 到 人 工 智 能 离 我 们 并 不 迄 远 而 且 会 越 来 越 成 为 我 们 
”生活 中 的 一 部 分 。 人 工 知 能 发 展 到 今天 的 水 平 依赖 于 IT 产 业 不 断 发 
展 所 提供 的 以 指数 级 增长 的 计算 能 力 。 幸 运 的 是 ， 现 实 正如 摩尔 定 
律 预言 的 那样 : 计算 机 的 计算 能 力 连续 五 十 多 年 保持 了 指数 增长 ， 


© https://en.wikipedia.org/wiki/List_of animals by_ number of neurons. 
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摩尔 定律 简直 如 同 魔法 一 般 。 

人 工 智能 未 来 的 发 展 无 疑 需要 更 大 的 计算 能 力 ， 摩 尔 定律 是 
否 会 像 之 前 一 样 持续 的 发 挥 “ 魔 力 ”? 遗憾 的 是 摩尔 定律 正在 失去 
“魔力 ”。《 自 然 》 杂志 在 2016 年 2 月 发 表 文章 《摩尔 定律 失效 》 
( The Chips are Down for Moores Law ) 中 称 : 摩尔 定律 什么 时 候 会 
走向 终结 是 长 久 以 来 被 不 断 提起 的 问题 ，2016 年 3 月 会 迎 来 正式 回 
答 : 全 球 半 导体 行业 的 研发 计划 首次 不 以 摩尔 定律 为 基础 。 

虽然 之 前 有 很 多 问题 都 曾 对 摩尔 定律 造成 了 影响 ， 例 如 芯 
散热 的 问题 ， 但 是 这 些 问题 都 没有 “ 杀 死 ”摩尔 定律 。 不 过 ， 这 
次 摩尔 定律 是 真正 “ 摊 上 大 事 了 ”: 现在 芯片 的 电路 精度 已 经 达 
到 14 纳 米 ， 未 来 还 能 达到 更 高 的 精度 。 全 球 半导体 行业 研发 规划 
蓝图 协会 主席 Paolo Gargini 表 示 : “到 2020 年 ， 如 果 付 出 极 大 的 努 
力 ， 我 们 的 芯片 线路 可 以 达到 2 一 3 纳米 级 别 ， 然 而 在 这 个 级 别 上 只 
能 容纳 10 个 原子 。” ( even with super-aggressive efforts, we’ll get 
to the 2-3-nanometre limit, where features are just 10 atoms across ) 
但 是 在 这 个 尺度 上 ， 电 子 的 行为 将 受到 量子 不 确定 性 (Quantum 
Uncertainties ) 的 影响 ， 晶 体 管 的 工作 将 变 得 不 可 靠 。 

这 是 摩尔 定律 必须 遵循 的 理论 上 限 。 为 什么 ? 因为 摩尔 定律 
的 “魔力 ”来 源 于 量子 力学 。 量 子 力学 才 是 那 一 枚 “ 魔 式 ”， 摩 尔 
定律 必须 遵循 量子 力学 的 规律 : 有 了 量子 力学 才 会 发 展 出 半导体 理 
论 ， 有 了 半导体 理论 才 有 半导体 元 器 件 ， 之 后 才 会 有 集成 电路 ， 再 之 
后 才 会 有 摩尔 定律 。 计 算 机 计算 能 力 的 指数 增长 的 根源 在 于 量子 力学 
的 应 用 ， 但 是 这 种 趋势 不 会 无 限 持续 下 去 ， 从 自然 科学 的 经 验 来 说 ， 
能 够 任何 长 时 间 保 持 指数 增长 的 事物 都 是 反常 的 ， 约 束 条 件 一 定 会 出 
现 ， 只 是 时 间 长 短 的 问题 ， 这 也 符合 朴素 的 哲学 思想 : 物 极 必 反 。 

摩尔 定律 失效 之 后 ， 要 获得 更 大 的 计算 能 力 ， 一 个 可 能 的 方向 是 
量子 计算 (Quantum Computing ) ， 相 比 于 现 有 的 电子 计算 机 ， 这 是 一 
种 不 同 的 计算 范式 。 虽 然 现 阶段 量子 计算 的 发 展 困难 重重 : 进展 缓慢 
而 且 有 可 能 只 对 特定 的 算法 有 效 ， 但 是 量子 计算 机 一 旦 实现 其 计算 能 
力 ， 让 现 有 的 计算 机 望尘莫及 ， 人 工 智 能 也 将 因此 获得 质 的 飞跃 。 
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智能 之 谜 

上 文中 我 们 探讨 了 摩尔 定律 背后 的 力量 ; 有 意思 的 是 ， 人 类 现 
代 文 明 中 的 最 前 沿 的 科技 向 前 追溯 几乎 都 会 找到 同一 群 人 。 图 2-5 是 
1927 年 第 五 届 索 尔 维 会 议 ( Solvay Conference ) 的 合影 。 照 片 中 这 些 
人 完成 了 量子 力学 和 相对 论 的 黄 基 工作 ，29 人 中 有 17 人 是 诺 贝 尔 奖 
得 主 ， 其 中 就 包括 了 大 家 熟知 的 爱 因 斯 坦 和 居 里 夫人 。 


图 2-5 1927 年 第 五 届 索 尔 维 会 议 的 合影 


位 于 后 排 中 间 ( 右 六 ) 的 是 薛 定 亩 。 薛 定 亩 是 量子 力学 波动 
形式 的 创立 者 并 因此 获得 诺 贝 尔 物理 学 奖 ， 他 在 1935 年 提出 的 处 于 
“半死 半 活 ”状态 的 薛 定 谓 的 猫 假象 实验 是 科学 史上 最 奇异 的 假象 
实验 之 一 : “把 一 只 猫 关 在 一 个 封闭 的 铁 容器 里 面 ， 并 且 装 置 以 下 
仪器 ( 注意 必须 确保 这 些 仪器 不 被 容器 中 的 猫 直接 干扰 ) : 在 一 台 
盖 革 计数 器 内 置 入 极 少量 放射 性 物质 ， 在 一 小 时 内 ， 这 个 放射 性 物 
质 至 少 有 一 个 原子 衰变 的 概率 为 50%， 它 没有 任何 原子 衰变 的 概率 
也 同样 为 50%; 假若 衰变 事件 发 生 了 ， 则 盖 革 计数 管 会 放电 ， 通 过 
继电器 启动 一 个 构 头 ， 郴 头 会 打破 装 有 和 氰 化 所 的 烧瓶 。 经 过 一 小 时 
以 后 ， 假 若 没 有 发 生 衰变 事件 ， 则 猫 仍 旧 存 活 ; 否则 发 生 衰变 ， 这 
套 机 构 被 触发 ， 和 氰 化 氨 挥 发， 导致 猫 随 即 死亡 。 用 以 描述 整个 事件 
的 波 函 数 竟 然 表 达 出 了 活 猫 与 死 猫 各 半 纠 合 在 一 起 的 状态 。” 这 个 
实验 引发 的 争论 推动 了 量子 信息 ( Quantum Information ) 的 发 展 ， 
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而 量子 信息 就 包括 上 文中 提 到 的 量子 计算 。 

无 独 有 偶 的 是 ， 薛 定 谓 同时 对 生命 科学 也 感 兴趣 ， 试 图 用 物 
理学 和 化 学 的 方法 去 研究 生命 的 本 质 ， 他 的 这 一 努力 推动 了 分 子 生 
物 学 的 诞生 。“ 心 智 ” 的 奥秘 同样 让 他 着 迷 ， 他 在 《心智 与 物质 》 
( Mind and Matter ) 中 提出 的 : “大 脑 和 神经 细胞 是 一 种 非常 特殊 
的 机 制 ， 通 过 它 去 体会 并 对 环境 改变 做 出 行为 上 的 相应 调整 ， 它 是 
一 种 适应 环境 变化 的 机 制 。”“ 心 智 与 生物 体 的 学 习 密 切 相 关 ; 但 
是 它 对 这 一 切 是 如 何 发 生 的 却 是 无 意识 的 。”“ 只 有 那些 仍 处 于 被 
训练 阶段 的 变化 才 会 被 意识 到 ; 在 未 来 它们 会 成 为 物种 遗传 上 的 固 
定 的、 训练 有 素 的 、 无 意识 的 财富 。 简 而 言 之 ， 心 智 是 进化 范畴 内 
的 一 种 现象 。” 这 些 观 点 与 后 来 人 工 智能 的 研究 结果 不 谋 而 合 ， 薛 
定语 所 说 的 心智 (Mind ) 和 人 工 智 能 的 智能 ( Intelligence ) 有 相通 
之 处 ， 薛 定 亩 认为 大 脑 和 神经 细胞 是 心智 的 物质 基础 ， 不 过 心智 是 
在 进化 过 程 中 对 环境 适应 而 形成 的 ; 学 习 能 力 是 心智 的 体现 ， 但 是 
学 习 的 过 程 却 不 受 意识 控制 (人 可 以 有 意识 地 进行 阅读 和 聆听 等 学 
习 的 动作 ， 但 是 大 脑 接 受信 息 后 的 认 知 和 理解 过 程 却 是 不 受 意识 控 
制 的 ) 。 这 正 是 我 们 上 文中 提 到 的 Donald Knuth 的 论述 ， 在 不 用 “ 思 
考 的 ”领域 人 类 智能 都 是 优 于 人 工 智 能 的 ， 人 类 大 脑 的 图 像 识 别 、 
语言 能 力 和 学 习 能 力 等 方面 的 能 力 是 长 期 进化 来 的 并 且 不 受 意 识 控 
制 ， 我 们 知道 人 类 的 智能 能 够 做 什么 ， 但 是 不 知道 是 如 何 做 到 的 ， 
这 就 是 为 什么 人 工 智 能 在 这 些 方面 要 模仿 人 类 智能 是 如 此 的 困难 。 
薛 定 谓 还 成 功 地 预言 了 人 类 会 用 机 器 代替 人 类 工作 ， 并 且 警 告 : 人 
类 的 心智 是 进化 的 产物 ， 如 果 不 进行 劳动 就 会 退化 直至 灭亡 。 

薛 定 谓 在 从 哲学 和 物理 学 的 角度 探索 心智 的 奥秘 ; 人 工 智 能 的 
符号 主义 学 派 是 从 逻辑 学 和 心理 学 的 角度 研究 智能 ; 人 工 智能 的 连 
接 主 义学 派 是 从 生物 学 大 脑 的 组 织 构造 上 进行 模拟 。 这 是 科学 界 对 
智能 探索 的 科学 思潮 在 不 同学 科 中 的 体现 ， 和 希望 这 些 不 同方 向 的 努 
力 能 够 早日 会 师 解 答 人 类 每 能 的 未 解 之 这。 
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那 是 最 美好 的 时 代 ， 那 是 最 糟糕 的 时 代 ; 那 是 智慧 的 年 头 ， 那 是 思 昧 的 年 头 ; 
那 是 信仰 的 时 期 ， 那 是 怀疑 的 时 期 ; 那 是 光明 的 季节 ， 那 是 黑暗 的 季节 ; 那 是 希 
望 的 春天 ， 那 是 失望 的 冬天 。 

一 一 狄更斯 《双城记 》 
狄更斯 如 此 描述 工业 革命 之 后 的 时 代 ， 之 前 的 每 一 次 科技 革命 都 带 来 了 巨大 
的 社会 变革 ， 这 一 次 也 不 会 例外 ， 而 且 只 会 更 加 迅猛 和 彻底 。 如 果 说 前 面 几 次 科 
技 革命 给 了 人 类 更 加 有 力量 的 “双手 ”、 更 加 迅速 的 “ 双 脚 ”和 更 加 敏锐 的 “ 眼 
睛 ”与 “ 耳 杀 ”， 这 一 次 将 会 是 更 加 聪慧 和 强大 的 “大 脑 ”。 大 数据 和 相关 技术 
正在 打破 行业 壁 便 实 现 大 规模 的 应 用 。 毫 无 疑问 ， 技 术 如 何 与 商业 进行 结合 会 是 
这 个 过 程 中 的 重要 问题 ， 这 个 过 程 不 会 一 趴 而 就 ， 而 会 是 在 挫折 中 探索 前 行 。 好 
在 ， 早 在 大 数据 时 代 之 前 ， 数 据 挖掘 在 商业 成 功 的 经 验 可 以 供 我 们 借鉴 ， 下 文中 
也 会 根据 新 科技 革命 的 特征 给 出 相关 建议 。 


数据 挖掘 


1. 概念 与 方法 


人 工 智能 是 科学 发 展 的 结果 ， 是 计算 机 科学 的 一 个 分 支 ， 包 括 了 概念 、 方 法 
论 和 纯 科 学 方面 的 理论 ， 当 然 也 包括 了 应 用 层面 的 技术 ; 而 数据 挖掘 是 信息 技术 
发 展 的 产物 ， 侧 重 的 是 应 用 计算 机 技术 解决 实际 问题 。 简 而 言 之 ， 人 工 智能 发 展 
的 重点 一 直 在 算法 ， 而 数据 挖掘 是 为 了 满足 日 益 丰 富 和 多 样 的 数据 分 析 需 求 而 发 
展 起 来 的 一 系列 技术 ， 是 应 用 驱动 的 。 数 据 挖掘 在 大 数据 诞生 之 前 就 已 经 存在 ， 
可 以 说 只 要 有 计算 机 科学 意义 上 的 数据 存在 ， 就 有 数据 挖掘 。 在 大 数据 兴起 之 后 
数据 挖掘 是 大 数据 技术 中 不 可 或 缺 的 一 部 分 ， 得 到 了 广泛 的 应 用 和 飞速 的 发 展 。 

I 开行 业内 普遍 接受 的 是 William J. Frawley、Gregory Piatetsky-Shapiro 和 
Christopher Matheus 对 数据 挖掘 的 定义 : 数据 挖掘 是 从 大 量 的 、 不 完全 的 、 有 噪 
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声 的 、 模 糊 的 、 随 机 的 实际 数据 中 ， 提 取 隐 含 在 其 中 的 、 人 们 不 知道 的 、 但 又 是 
潜在 有 用 的 信息 和 知识 的 过 程 。 © (the nontrivial extraction of implicit, previously 
unknown, and potentially useful information from data) 

广义 的 数据 挖掘 等 同 于 “在 数据 中 发 现 知识 ”， 即 上 文中 提 到 的 数据 库 中 的 知 
识 发 现 (KDD) ， 因 此 在 很 多 场景 中 KDD 和 数据 挖掘 会 作为 同义词 交替 使 用 。 狭 义 的 
数据 挖掘 只 是 知识 发 现 过 程 中 的 一 个 基本 步骤 ， 知 识 发 现 过 程 涉及 的 步骤 依次 为 : 2 

(1) 数据 清洗 : 消除 噪声 和 删除 不 一 致 的 数据 。 

(2) 数据 集成 : 多 种 数据 源 可 以 组 合 在 一 起 。 

(3) 数据 选择 :从 数据 库 中 提取 与 分 析 任务 相关 的 数据 。 

(4) 数据 变换 : 通过 汇总 或 聚集 操作 ， 把 数据 变换 和 统一 成 适合 挖掘 的 形式 。 

(5) 数据 挖掘 : 基本 步骤 ， 使 用 智能 方法 提取 数据 模式 。 

(6) 模式 评估 : 根据 某 种 兴趣 度 度 量 ， 识 别 代表 知识 的 真正 有 趣 的 模式 。 

步骤 (1) 一 〈4) 是 数据 准备 ， 有 的 时 候 还 会 包括 数据 规约 : 通过 对 数据 属 
性 筛选 和 数据 采样 减少 所 要 分 析 的 数据 量 ， 以 缩短 数据 分 析 时 间 。 数 据 准 备 的 主 
要 目的 是 保证 数据 质量 ， 数 据 质量 中 最 重要 的 要 素 是 准确 性 、 完 整 性 和 一 致 性 。 
现实 世界 中 的 数据 总 是 会 有 不 准确 、 不 完整 和 不 一 致 的 情况 ， 例 如 ， 不 同时 区 的 
日 期 时 间 数 据 不 经 过 转换 的 话 就 会 因为 不 一 致 产生 错误 。 

数据 挖掘 融合 了 统计 学 、 机 器 学 习 、 数 据 库 与 数据 仓库 、 高 性 能 计算 和 众多 
计算 机 应 用 领域 的 技术 。 因 为 数据 挖掘 是 与 商业 应 用 之 间 关 联 的 ， 这 其 中 最 核心 
的 是 机 器 学 习 和 数据 库 与 数据 仓库 技术 。 机 器 学 习 在 上 文中 已 经 做 了 介绍 ， 下 面 
谈 一 谈 数据 挖掘 用 到 的 数据 库 和 数据 仓库 技术 。 

上 文中 介绍 了 NoSQL， 不 过 在 数据 挖掘 过 程 中 最 丰富 、 最 常见 的 数据 来 源 
是 关系 型 数据 库 。 关 系 型 数据 的 设计 需要 遵循 一 系列 的 规则 ， 这 些 规则 被 称 为 范 
式 。 关 系 型 数据 库 包 括 各 种 类 型 的 表 ， 表 的 内 容 则 是 记录 的 数据 。 数 据 库 系 统 ， 
全 称 为 数据 库 管 理 系 统 (Database Management System，DBMS) 。 数 据 库 系统 
包括 数据 库 一 一 数据 的 集合 和 管理 数据 库 的 软件 。 数 据 库 系 统 在 20 世纪 70 年 代 


@ W. Frawley and G. Piatetsky-Shapiro and C. Matheus Knowledge Discovery in Databases: An 
Overview AI Magazine, Fall 1992: 213-228. ISSN 0738-4602. 

加 Jiawei Han, Micheline Kamber，Jian Pei. 数据 挖掘 概念 与 技术 〈 第 三 版 ) . 范 明 ， 孟 小 峰 , 译 . 北 
京 : 机 械 工业 出 版 社 ，2012. 
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开始 发 展 成 熟 ， 很 快 便 应 用 于 商业 应 用 成 为 信息 系统 不 可 或 缺 的 一 部 分 ， 包 括 了 
客户 关系 管理 系统 (CRM) 、 财 务 系统 、 物 流 系统 以 及 之 后 的 企业 资源 计划 系 
统 (ERP) 等 。 紧 接着 ， 对 于 这 些 商务 数据 进行 分 析 的 需求 便 开 始 出 现 。 数 据 仓 
库 技术 在 20 世纪 80 年 代 后 期 开始 成 熟 ， 数 据 仓库 技术 的 出 现 完 全 是 因为 商业 需 
求 的 推动 ， 所 以 数据 仓库 又 被 称 为 企业 数据 仓库 〈Enterprise Data Warehouse) 。 
数据 仓库 的 概念 源 自 于 Barry Devlin 和 Paul Murphy 发 表 于 1988 年 的 论文 ，《 商 
业 和 信息 系统 的 架构 》 (4n Architecture of 4 Business and Information System) ， 
在 文中 被 称 为 商业 数据 仓库 〈Business Data Warehouse) 。? 

数据 仓库 的 主要 特征 包括 : 面向 主题 (Subject-oriented)、 集 成 的 (Integrated) 、 
时 变 的 〈Time-variant) 和 非 易 失 的 〈Nonvolatile) 。 数 据 仓 库 从 不 同 的 数据 来 源 
收集 异 构 的 数据 ， 经 过 处 理 形成 同 构 的 高 质量 数据 ， 然 后 数据 仓库 对 于 特定 的 主 
题 进 行 数据 建 模 ， 例 如 ， 销 量 、 顾 客 、 物 流 等 。 数 据 仓库 把 结果 通过 报表 和 知识 
可 视 化 方式 输出 ， 进 而 提供 决策 支持 。 

通常 的 数据 挖掘 三 层 架 构 为 (图 2-6) : 底层 是 数据 仓库 服务 器 ， 通 常 是 由 
关系 数据 库 系统 、 后 端 工具 与 实用 程序 和 元 数据 库 构 成 ， 这 一 层 的 主要 功能 是 从 
外 部 数据 源 获取 数据 并 进行 数据 清洗 和 数据 变换 等 操作 ， 数 据 来 源 为 HR 系统 、 
CRM 系统 和 ERP 系统 等 的 业务 数据 ;中间 层 是 数据 挖掘 引擎 ， 通 常 为 联机 分 析 
处 理 系统 (On Line Analytical Processing，OLAP) ， 这 一 层 的 主要 功能 是 实现 多 
维 数据 的 构建 和 操作 ， 顶 层 是 数据 展示 服务 器 ， 具 有 报告 和 可 视 化 引擎 ， 包 括 查 
询 、 报 告 和 交互 分 析 的 工具 。® 


A 数据 展示 服务 器 


数据 挖掘 引擎 


数据 仓库 服务 器 


2-6 数据 挖掘 三 层 架 构 


B.A Devlin, PT Murphy IBM System Journal, VOL 27, NO 1, 60-80. 
Jiawei Han, Micheline Kamber ，Jian Pei. 数据 挖掘 概念 与 技术 〈 第 三 版 ) . 范 明 ， 孟 小 峰 , 译 . 北 
: 机 械 工 业 出 版 社 ，2012. 
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机 器 学 习 为 数据 挖掘 提供 了 数据 分 析 的 算法 ， 而 数据 库 管 理 系统 和 数据 仓库 
系统 为 数据 挖掘 提供 了 对 数据 进行 管理 和 操作 的 技术 .有 了 这 两 方面 技术 的 支持 ， 
数据 挖掘 可 以 帮助 决策 者 寻找 规律 ， 发 现 被 忽略 的 要 素 ， 预 测 趋势 ， 进 行 决策 ， 
对 数据 内 在 和 本 质 的 高 度 抽 象 与 概括 。 决 策 支持 与 商业 智能 都 是 数据 挖掘 的 实际 
应 用 。 

数据 挖掘 因为 长 期 的 应 用 实践 和 优化 ， 已 经 形成 了 成 熟 的 方法 论 ， 其 中 最 经 
典 的 包括 CRISP-DM 和 SEMMA。 


2. CRISP-DM 


跨行 业 数 据 挖 掘 标准 流程 〈Cross-Industry Standard Process for Data Mining ， 
CRISP-DM) ， 由 SPSS、NCR 和 Daimler Chrysler 三 家 公司 在 1996 年 制定 的 ， 
它 强调 的 是 数据 挖掘 在 商业 中 的 应 用 ， 解 决 商业 中 存在 的 问题 ， 而 不 是 把 数据 挖 
掘 局 限 在 研究 领域 。 了 

CRISP-DM 强调 数据 挖掘 的 商业 意义 ， 在 数据 挖掘 流程 中 有 独立 的 商业 理解 
步骤。CRIPS-DM 是 一 个 闭环 ， 其 中 包括 六 个 步骤 : 商业 理解 、 数 据 理解 、 数 据 
准备 、 建 立 模 型 、 模 型 评估 和 模型 发 布 (图 2-7) 。 


商业 理解 | 一 | 数据 理解 


2-7 ”跨行 业 数 据 挖 所 标准 流程 


© Chapman,P etal,2000.CRISP-DM 1.0 - Step-by-step data mining guide. 
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(1) 商业 理解 (Business Understanding) : 作为 项 目的 初始 阶段 ， 该 阶段 
的 重点 在 于 明确 项 目的 目的 和 业务 需求 , 然后 把 业务 需求 转化 为 建 模 需求 和 约束 ， 
并 且 因 此 设计 出 项 目 计 划 。 商 业 理 解 的 下 属 任务 包括 一 一 确定 商业 目标 : 背景 、 
目标 和 成 功 的 标准 ， 对 接 方式 : 可 利用 资源 、 需 求 、 假 设 与 限制 、 风 险 与 备 选 方 
案 、 成 本 与 收益 ， 确 定数 据 挖掘 的 目标 : 目标 和 成 功 的 标准 ;确定 项 目 计划 : 计 
划 、 可 供 使 用 的 工具 与 方法 。 

(2) 数据 理解 (Data Understanding) : 从 收集 数据 开始 ， 通 过 一 系列 的 数 
据 探索 行为 ， 确 定数 据 的 质量 问题 ， 发 现 数据 的 属性 和 特点 ， 获 得 描述 数据 的 数 
据 。 下 属 任务 包括 : 数据 收集 并 完成 报告 ， 描 述 数 据 并 完成 报告 ， 探 索 数 据 并 完 
成 报告 ， 确 定数 据 质量 并 完成 报告 。 

(3) 数据 准备 (Data Preparation) : 数据 挖掘 包括 了 从 原始 数据 到 最 终结 
构 化 数据 集 之 间 的 所 有 操作 ， 最 终 的 结构 化 数据 集 可 以 直接 被 算法 模型 使 用 。 数 
据 准 备 包括 数据 清洗 、 数 据 选 择 和 数据 变换 等 步骤 ， 数 据 准备 的 工作 可 以 进行 多 
次 ， 下 属 步骤 的 顺序 也 可 以 根据 需要 进行 排序 。 下 属 任务 包括 : 选择 数据 ， 清 洗 
数据 并 完成 报告 ， 使 数据 结构 化 ， 集 成 数据 ;确定 数据 格式 ， 对 数据 集 进 行 描述 。 

(4) 建立 模型 (Modeling) : 在 这 个 阶段 通常 不 止 一 种 算法 模型 会 得 到 应 用 ， 
这 些 模型 都 会 通过 调试 达到 最 优 的 状态 。 通 常 来 说 ， 对 于 某 一 类 型 的 数据 挖掘 问 
题 会 有 相对 应 的 一 些 算法 可 供 选 择 。 因 为 不 同 的 算法 对 数据 形式 有 不 同 的 要 求 ， 
回 到 数据 准备 阶段 重新 准备 数据 也 是 有 可 能 的 。 下 属 任务 包括 : 现在 模型 算法 ; 
生成 测试 设计 ， 构 建 模型 ， 应 用 模型 。 

〈5) 模型 评估 (Evaluation): 在 这 个 阶段 应 该 有 一 些 运转 良好 的 备 选 模 型 了 。 
在 最 终 部 署 之 前 要 对 模型 进行 评估 ， 确 保 实 现 了 项 目 所 有 的 商业 目标 并 且 核查 是 
和 否 在 任何 重要 问题 上 有 所 遗漏 。 下 属 任务 包括 : 评估 结果 ; 复审 流程 ， 确 定 后 续 
下 帮 。 

(6) 模型 发 布 (Deployment) : 构建 模型 并 不 是 项 目的 结束 。 数 据 挖掘 获 
得 的 知识 应 该 按照 用 户 能 够 使 用 的 方式 进行 呈现 。 根 据 用 户 的 需求 ， 发 布 阶段 有 
可 能 相对 简单 : 例如 ， 生 成 一 份 报告 ， 也 可 能 相对 复杂 : 例如 ， 部 署 一 套 可 以 重 
复 使 用 的 数据 挖掘 平台 。 在 很 多 情况 下 ， 是 用 户 而 并 非 数据 分 析 师 来 推动 发 布 工 
作 的 完成 ， 因 此 帮助 用 户 理解 如 何 进行 发 布 也 相当 重要 。 下 属 任务 包括 : 拟定 发 
布 计 划 ; 拟定 监督 和 运 维 计 划 ; 完成 最 终 报告 ， 复 审 项 目 。 
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3. SEMMA 


SEMMA 是 Sample、Explore、Modify、Model 和 Access 的 首 字母 缩写 ， 描 
述 的 是 完成 一 个 数据 挖掘 项 目的 过 程 。 SEMMA 是 由 SAS 公司 开发 的 数据 挖掘 
方法 论 ，SAS 公司 是 全 球 知名 的 数据 挖掘 软件 与 服务 提供 商 。 因 此 SEMMA 方 
法 论 通常 与 SAS 开发 的 数据 挖 扬 平台 和 解决 方案 配合 使 用 。® 

正如 SEMMA 这 个 名 词 描述 的 ，SAS 对 于 数据 挖掘 定义 了 5 个 核心 步骤 ; 

(1) 数据 抽样 (Sample) : 从 海量 数据 集中 取出 具有 代表 性 的 部 分 数据 。 
这 些 数据 既 要 足够 大 以 致 能 够 反映 数据 集 的 重要 信息 ， 同 时 又 不 能 过 于 庞大 使 之 
能 够 方便 处 理 。 

(2) 数据 探索 (Explore) : 摸 清 数据 集 的 大 致 情况 ， 包 括 基本 的 统计 信息 、 
意料 之 外 的 趋势 和 数据 质量 等 。 

(3) 数据 调整 (Modify) : 对 数据 进行 清洗 和 转换 。 

(4) 数据 建 模 〈Model) : 通过 相应 的 软件 进行 建 模 ， 输 入 上 一 步骤 的 数据 
并 获得 结果 。 

(5) 结果 评价 (Access) : 评价 结果 的 有 效 性 和 整个 挖掘 流程 的 科学 性 ， 
对 模型 和 结果 进行 综合 评价 。 

对 SEMMA 和 CRISP-DM 进行 比较 我 们 会 发 现 两 者 的 核心 步骤 有 相通 之 处 ; 
SEMMA 的 数据 抽样 和 数据 探索 对 应 CRISP-DM 的 数据 理解 ，SEMMA 的 数据 调 
整 对 应 CRISP-DM 的 数据 准备 ，SEMMA 的 数据 建 模 对 应 CRISP-DM 建立 模型 ; 
SEMMA 的 结果 评价 对 应 CRISP-DM 的 模型 评估 。 不 过 ，CRIPS-DM 覆盖 的 范围 
更 加 广泛 ， 包 括 商 业 理解 的 前 期 步骤 和 发 布 的 后 期 步 又， 因此 CRISP-DM 更 加 
强调 与 商业 环境 的 对 接 。 

这 一 部 分 的 内 容 主要 介绍 了 数据 挖掘 的 内 容 ， 传 统 的 数据 挖掘 和 大 数据 分 析 
既 有 相通 之 处 ， 又 有 重要 的 区 别 ， 这 将 在 下 文中 再 做 分 析 。 


@ Azevedo, A. and Santos, M. F KDD, SEMMA and CRISP-DM: a parallel overview. In Proceedings 
of the IADIS European Conference on Data Mining 2008, pp. 182-185. Archived January 9, 2013, at the 
Wayback Machine. 
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数据 可 视 化 


1. 艺术 的 科学 和 科学 的 艺术 


出 人 意外 ， 一 八 一 二 年 法 国人 在 莫斯科 附近 打 了 胜仗 ， 占 领 了 莫斯科 ， 在 这 
以 后 再 没有 打仗 ， 但 是 毁灭 的 不 是 俄国 ， 而 是 拿破仑 的 六 十 万 军队 ， 然 后 是 拿 破 
仓 的 法 国 。 

自从 十 月 二 十 入 日 开始 上 冻 以 后 ， 法 军 的 溃 逃 更 加 莫 惨 了 : 人 们 冻 死 和 在 敌 
火 旁 烤 死 ， 皇 帝 、 国 王 和 公 闭 身 穿 轻 形 、 驾 着 马车 ， 携 带 抢 来 的 财务 继续 赶路 ; 
但 是 ， 法 国 军 队 从 退出 莫斯科 就 开始 的 溃 逃 和 土 前 瓦解 的 过 程 ， 实 质 上 没有 发 生 
丝毫 的 变化 。 

从 莫斯科 到 维 亚 济 马 ， 法 军 原 有 七 十 三 万 人 ( 不 算 近 卫 军 ， 他 们 在 整个 战争 
中 ， 除 了 抢劫， 什么 事 也 不 干 ) ， 而 这 七 十 三 万 人 只 剩 下 三 万 六 千 人 了 (在 战斗 
中 阵亡 的 不 到 五 千 人 ) 。 

一 一 列 夫 。 托 尔 斯 泰 《战争 与 和 平 》 

上 面 是 《战争 与 和 平 》 中 对 1812 年 俄 法 战争 的 描述 。 战 争 的 主要 过 程 是 : 
1812 年 ， 法 兰 西 第 一 帝国 皇帝 拿破仑 一 世 借 口 俄 国 沙皇 亚历山大 一 世 破 坏 《 带 
尔 西 特 和 约 》， 遂 率 军 60 万 ， 分 二 路 渡 过 涅 曼 河 侵入 俄 境 ， 企 图 歼灭 对 面 俄 军 
20 余 万 ， 一 战 定 胜 负 。 俄 军 在 巴克 莱 指 挥 下 执行 后 退 决战 方针 , 但 引起 强烈 不 满 。 
8 月 20 日 换 上 库 图 佐 夫 出 任 俄 军 总 司令 ， 不 到 一 星期 就 在 博 罗 季 诺 和 法 军 血战 ， 
双方 伤亡 惨重 。 尔 后 俄 军 主动 撤离 莫斯科 ， 机 动 至 卡 卢 加 ， 威 胁 法 军 交 通 线 ， 并 
组 织 军民 “ 坚 壁 清 野 ”， 袭 扰 法 军 。 法 军 饥 寒 交 迫 .只 好 撤 出 莫斯科 . 沿 南方 撤 
回 。 俄 军 转 入 反攻 ， 追 歼 大 量 法 军 。 法 军 丧 失 了 全 部 骑兵 和 几乎 所 有 炮兵 ， 只 剩 
3 万 人 退出 国境 。1812 年 俄 法 战争 在 欧洲 史上 占有 重要 地 位 ， 也 是 拿破仑 一 生 中 
的 重要 转折 点 ， 战 争 的 内 容 和 事件 在 很 多 文献 和 艺术 作品 中 都 有 记载 。 柴 可 夫 斯 
基于 1880 年 创作 了 著名 的 《1812 序曲 》 来 纪念 俄国 军民 击 退 拿破仑 的 入 侵 赢 得 
战争 的 胜利 。 

数据 可 视 化 领域 中 最 经 典 案例 也 是 以 1812 年 俄 法 战争 为 主题 的 。 1869 年 ， 
Charles Joseph Minard 用 图 2-8 描绘 了 拿破仑 入 侵 俄国 失败 并 退回 法 国 的 过 程 。 
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图 中 用 流 〈Stream) 来 表示 拿破仑 的 军队 ， 流 的 宽度 表示 军队 的 规模 ， 浅 灰色 的 
流 表示 进攻 过 程 ， 黑 色 的 则 是 撤退 过 程 ， 而 且 流 的 方向 和 路 径 代表 了 行军 路 线 。 
从 图 中 我 们 可 以 清楚 地 看 到 法 军 遭 受 的 挫败 和 人 员 损 失 。 


THABLEAU CRAPHIDUE de tenpiratote an ds 出 Chermavitre 上 lianmr mm dswm 上 at 


2-8 数据 可 视 化 领域 中 最 经 典 的 案例 一 一 1812 年 俄 法 战争 


如 果 用 语言 文字 描述 这 个 过 程 需要 花费 大 量 的 功夫 ，Minard 只 用 了 一 张 图 
和 少量 的 数字 与 文字 就 达到 了 同样 的 效果 。Minard 被 认为 是 在 工程 和 统计 中 应 
用 图 画 的 先驱 ， 上 图 被 认为 是 最 早 的 数据 可 视 化 的 案例 之 一 。 

数据 可 视 化 是 将 数据 转化 为 易于 理解 的 蕴含 信息 和 知识 的 可 视 化 对 象 的 理 
论 、 方 法 和 技术 。 数 据 可 视 化 是 艺术 的 科学 同时 也 是 科学 的 艺术 。 


2. 理论 和 应 用 


数据 可 视 化 可 分 为 科学 可 视 化 (Scientific Visualization) 、 信 息 可 视 化 
(Information Visualization) 和 可 视 化 分 析 〈Visual Analytics) 。 

数据 可 视 化 起 源 于 计算 机 图 形 学 “Computer Graphics) 并 随 着 计算 机 科技 的 
发 展 不 断 地 扩大 其 边界 。 利 用 计算 机 绘制 图 形 最 开始 应 用 于 科学 研究 。1987 年 ， 
Bruce H. McCormick，Thomas A. DeFanti 和 Maxin D. Brown 编写 了 美国 科学 基金 
会 报告 《科学 计算 中 的 可 视 化 》 (Tisualization in Scientific Computing) 。 报 告 中 
提出 : 可 视 化 是 一 种 计算 方法 。 它 把 符号 转化 为 图 形 ， 使 研究 者 能 够 通过 计算 机 
进行 模拟 和 观测 ， 帮 助人 们 对 科学 计算 的 概念 和 结果 进行 深入 的 理解 。 之 后 随 着 
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这 种 科学 技术 在 生物 学 、 医 学 、 建 筑 学 和 气象 学 等 领域 的 广泛 应 用 ， 科 学 计算 中 
的 可 视 化 《Visualization in Scientific Computing) 这 一 概念 逐步 演化 为 科学 可 视 化 
(Scientific Visualization) 。 

随 着 个 人 计算 机 的 普及 ， 计 算 机 更 广泛 地 应 用 于 商业 、 管 理 、 金 融和 媒体 
等 行业 。 在 20 世纪 90 年 代 ， 可 视 化 在 这 些 行业 的 应 用 逐渐 形成 了 信息 可 视 化 
(Information Visualization) 。 与 科学 可 视 化 不 同 的 是 ， 信 息 可 视 化 所 展示 的 内 
容 没 有 固有 的 数据 结构 和 数据 形式 , 更 加 灵活 多 样 , 包括 新 闻 、 股票 、 社 交 网 络 等 。 

2000 年 之 后 ， 科 学 可 视 化 和 信息 可 视 化 被 统一 为 数据 可 视 化 (Data 
Visualization) ， 这 一 领域 一 直 保持 着 快速 的 发 展 ， 特 别 是 在 大 数据 时 代 ， 这 一 
领域 的 重要 性 日 益 凸显 。 对 于 大 量 数据 的 分 析 、 理 解 和 展示 有 着 更 高 的 要 求 和 挑 
战 。 据 此 形成 的 分 析 可 视 化 (Visual Analytics) 使 数据 的 分 析 与 可 视 化 更 有 机 地 
结合 在 一 起 ， 而 且 可 以 实现 交互 式 的 操作 。 

图 2-9 为 《纽约 时 报 》 对 2012 年 伦敦 奥运 会 各 国 获得 的 奖牌 数 应 用 的 信息 
可 视 化 。 
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图 2-9 2012 年 伦敦 奥运 会 各 国 获得 的 奖牌 数 应 用 的 信息 可 视 


数据 可 视 化 对 数据 的 展现 要 尽量 满足 : 直观 、 清 晰 、 精 确 和 高 效 的 要 求 。 对 
于 数据 变量 的 表达 有 多 种 不 同 的 方式 和 细节 ， 包 括 了 : 位 置 、 形 状 、 颜 色 、 质 地 、 
大 小 等 。 对 于 图 像 的 形式 也 有 多 种 选择 ， 包 括 : 柱状 图 、 饼 状 图 、 散 点 图 、 线 图 
和 网 络 图 等 。 


© https://www.nytimes.com/interactive/projects/london2012/results. 
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后) | 数据 “游戏 ” 
延伸 阅读 | 
| 


| 我 们 来 玩 一 个 小 游戏 ， 下 面 这 个 数据 集 是 由 [x， 攻 数据 对 组 成 。 
| 请 你 观察 这 个 数据 集 10 秒 钟 ， 然 后 告诉 我 * 值 最 大 和 y 值 最 大 的 数据 
来 源 。® 

[174.0, 65.6], [175.3, 71.8], [193.5, 80.7], [186.5, 72.6], 
[187.2, 78.8], [181.5, 74.8], [184.0, 86.4], [184.5, 78.4], 
[L752:0', 62:0]; [184.0,. 81;61; [180:0, 7661， [177.8;, 83:6l; 
[192.0, 90.0], [176.0, 74.6], [174.0, 71.0], [184.0, 79.6], 
[192.7, 93.8], [171.5, 70.0], [173.0, 72.4], [176.0, 85.9], 
[176.0, 78.8], [180.5, 77.8], [172.7, 66.2], [176.0, 86.4], 
[173.5, 81.8], [178.0, 89.6], [180.3, 82.8], [180.3, 76.4], 
[164.5, 63.2], [173.0, 60.9], [183.5, 74.8], [175.5, 70.0], 
[188.0, 72.4], [189.2, 84.1], [172.8, 69.1], [170.0, 59.5], 
[182.0, 67.2], [170.0, 61.3], [177.8, 68.6], [184.2, 80.1], 
[186.7, STB], [1914, BAT), [i72:7, 73.4], [I7S3, 92.11; 
[180.3, 82.6], [182.9, 88.7], [188.0, 84.1], [177.2, 94.1], 
[172.1, 74.9], [167.0, 59.1], [169.5, 75.6], [174.0, 86.2], 
[172.7, 75.3], [182.2, 87.1], [164.1, 55.2], [163.0, 57.0], 
[171.5, 61.4], [184.2, 76.8], [174.0, 86.8], [174.0, 72.2], 
[177.0, 71.6], [186.0, 84.8], [167.0, 68.2], [171.8, 66.1], 
[182.0, 72.0], [167.0, 64.6], [177.8, 74.8], [164.5, 70.0], 
[192.0, 101.6], [175.5, 63.2], [171.2, 79.1], [181.6, 78.9], 
[167.4, 67.7], [181.1, 66.0], [177.0, 68.2], [174.5, 63.9], 
[177.5, 72.0], [170.5, 56.8], [182.4, 74.5], [197.1, 90.9], 
[180.1, 93.0], [175.5, 80.9], [180.6, 72.7], [184.4, 68.0], 
[275:5, 70:91, [L806, 72:51, T7700, 705, [LITT L, B34 
[181.6, 75.5], [176.5, 73.0], [175.0, 70.2], [174.0, 73.4], 
[165.1, 70.5], [177.0, 68.9], [192.0, 102.3], [176.5, 68.4], 


© http://echarts.baidu.com/echarts2/doc/example/scatterl .html. 
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[169.4， 
[184.9， 
[168.9， 
[177.8， 
[165.1， 
[7 
[137 
[163.8， 
[166.4， 
[179.7， 
[168.9， 
[190.5， 
[184.2， 
[171.4， 
[177:8, 
[175.3, 
[172:7; 
[170.2， 
[re 
[182.9， 
[188.0， 
[171.4， 
[188.0， 
[175.3 ， 
[170.5， 
[182.9， 
(1278 
[180.3， 
[160.0， 
[175.3, 


65:91, L182. 1 72591, Li70.8, B45T, [i953 B71, 
86.4], [177.3, 73:2], [167:4, 53.9], [178:1, 7201, 
55.5] LIS72 Sol [iS03 B32 [L170 727 
64.1], [172.7, 72.3], [165.1, 65.0], [186.7, 86.4], 
65.0], [174.0, 88.6], [175.3, 84.1], [185.4, 66.8], 
75:5], [180:3, 93.2]; [180:3, 8227], [177.8, 580]; 
79.5], [177.8, 78.6], [177.8, 71.8], [177.8, 116.4], 
72.2], [188.0,83.6], [198.1, 85.5], [175.3, 90.9], 
85.9], [190.5, 89.1], [166.4, 75.0], [177.8, 77.7], 
86.4], [172.7, 90.9], [190.5, 73.6], [185.4,76.4], 
69.1], [167.6, 84.5], [175.3, 64.5], [170.2,69.1], 
108:6], (177:8, ‘864], [190.5, -80:9], [177:8. 877 
94:5]s [1976.5: 80:2], [177:8, 72:0]: [180.3; 91.4]。 
jos, W172 SFL 17297, 76:8), L177.8 :65615 
80.9], [182.9,80.9], [170.2, 85.5], [167.6, 68.6], 
67.7], [165.1, 66.4], [185.4, 102.3], [181.6, 70.5], 
95.9], [190.5, 84.1], [179.1, 87.3], [175.3, 71.8], 
65.9], [193.0, 95.9], [171.4, 91.4], [177.8, 81.8], 
96:8], L167:6, 69:11; [i676 82.7], [180.3, 75:51, 
70.5], [L176.6,. 7361; L186.7: 91:81: [i880 :384.11; 
85:9], T1177.8, 81.8], [174.0 82:5Y, [177:8, :80.51, 
70.0], [185.4, 81.8], [185.4, 84.1], [188.0, 90.5], 
91.4], [182.9, 89.1], [176.5, 85.0], [175.3, 69.1], 
73.6], [188.0, 80.5], [188.0, 82.7], [175.3, 86.4], 
67.7], [179.1, 92.7], [177.8, 93.6], [175.3, 70.9], 
75.00, 170.8 93:01, [1880 0321, L180.3, 377 
61.4], [185.4, 94.1], [168.9, 75.0], [185.4, 83.6], 
85.5], [174.0, 73.9], [167.6, 66.8], [182.9, 87.3], 
72.31, [180:3, 88.6], [167,6, 75.5], [186:7; 101:4], 
9 于 L175.3s 67.31, [175:9, 77.7], T1759, ‘8181; 
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[179.1, 75.5], [181.6, 84.5], [177.8, 76.6], [182.9, 85.0] 
(72:8, L005], [i849 77.3]; L179. 71.8), [176.5, B79]; 
[188.0, 94.3], [174.0, 70.9], [167.6, 64.5], [170.2, 77.3] 
[167.6, 72.3], [188.0, 87.3], [174.0, 80.0], [176.5, 82.3] 
[180.3, 73.6], [167.6, 74.1], [188.0, 85.9], [180.3, 73.2] 
[167.6, 76.3], [183.0, 65.9], [183.0, 90.9], [179.1, 89.1] 
[L703 人 1778 827), [i79L, 3790.11; T1190.55 .98 
[177.8，84.1]，[180.3 ，83.2]，[180.3 ，83.2] 

这 项 任务 对 于 大 多 数 人 都 很 困难 ， 笔 者 本 人 也 是 无 法 做 到 。 我 
们 进行 数据 可 视 化 处 理 之 后 ( 图 2-10 ) ， 再 试 试 : 


120 


110 


图 2-10 ”数据 可 视 化 “游戏 ” 
现在 我 们 可 以 一 眼 就 找 出 图 中 XX 和 7 了 值 最 大 的 点 。 人 类 大 脑 对 图 
像 的 认 知 和 理解 的 能 力 要 优 于 对 文字 和 数字 ， 因 此 数据 可 视 化 在 意 
义 构建 (Sense-making ) 和 交流 传播 ( Communication ) 方面 相 比 于 
单纯 的 数据 具有 显著 的 优势 。 


[E 大 数据 应 用 的 未 来 与 优势 


大 数据 和 相关 的 技术 将 如 何 应 用 是 大 家 普遍 关心 的 一 个 话题 ， 对 于 这 个 问题 
可 谓 是 仁者 见 仁 ， 智 者 见 智 ， 对 于 这 个 问题 的 论述 也 是 汗 牛 充 栋 。 不 过 ， 任 何 大 
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数据 的 应 用 都 会 围绕 三 个 关键 点 展开 : 数据 、 计 算 能 力 和 算法 ， 而 这 三 个 关键 点 
在 实现 上 正好 对 应 着 大 数据 、 云 计算 和 人 工 智 能 (图 2-11) 。 


全 
云 计算 人 工 智能 


2-11 大 数据 应 用 的 三 个 关键 点 


大 数据 与 云 计算 结合 包括 数据 、 大 数据 技术 和 云 计算 技术 而 构成 基础 服务 : 
即 数据 资源 化 和 计算 服务 化 ， 大 数据 与 人 工 智能 结合 通常 是 探索 研究 形成 创新 的 
技术 原型 ， 例 如 ， 谷 歌 大 脑 的 猫 脸 识别 项 目 ， 大 数据 与 人 工 智能 的 结合 在 于 促使 
知识 发 现 的 过 程 智 能 化 : 自动 或 者 半自动 地 从 数据 中 发 现 知识 ， 人 工 智 能 与 云 计 
算 的 结合 通常 是 成 熟 的 解决 方案 ， 通 过 充分 的 训练 和 测试 之 后 可 以 方便 地 应 用 和 
推广 。 未 来 的 成 功 的 大 数据 应 用 通常 应 该 是 这 三 个 方面 的 结合 ， 概 括 起 来 就 是 数 
据 资源 化 、 计 算 服务 化 和 分 析 智 能 化 。 


1 . 数据 资源 化 


海量 异 构 数 据 的 出 现 一 开始 造成 了 数据 存储 和 数据 分 析 方面 的 诸多 问题 ， 力 
图 解决 这 些 问 题 成 为 了 大 数据 技术 产生 和 发 展 的 原动力 ; 然而 随 着 大 数据 技术 的 
逐渐 成 熟 ， 进 行 大 数据 分 析 的 成 本 在 逐渐 降低 ， 同 时 从 大 数据 中 发 现价 值 的 收益 
在 逐渐 增 大 ， 这 就 使 得 数据 本 身 成 为 了 一 种 资源 。 

著名 的 计算 机 科学 家 、 图 灵 奖 得 主 James Gray 在 2007 年 NRC-CSTB (National 
Research Council-Computer Science and Telecommunications Board) 大 会 上 ， 做 了 
题 为 《一 种 新 的 科学 方法 》 (A Transformed Scientific Method) 的 演讲 ， 在 这 次 
演讲 中 他 提出 了 著名 的 第 四 范式 理论 (the Fourth Paradigm) : 人 类 科技 发 展 过 
程 中 已 经 经 历 了 三 种 范式 。 几 千年 前 ， 科 学 在 最 初 是 经 验 主义 的 ， 以 描述 自然 现 
象 为 特征 ， 这 是 第 一 范式 ， 在 第 一 范式 形成 几 百 年 以 后 ， 人 们 从 现象 中 抽象 出 模 
型 ， 通 过 理论 进行 研究 ， 经 典 物理 学 包括 牛顿 三 定律 和 麦克 斯 韦 电磁 理论 等 都 属 
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于 这 个 范畴 ， 这 是 第 二 范式 ， 几 十 年 前 ， 在 计算 机 被 发 明之 后 很 快 就 被 应 用 到 对 
科学 实验 进行 模拟 ， 这 显著 地 加 速 了 科学 研究 的 进程 ， 并 成 为 了 必 不 可 少 研究 方 
法 ， 这 是 第 三 范式 ， 现 在 ， 我 们 正 处 在 数据 爆炸 时 代 ， 科 学 研究 需要 收集 仪器 观 
测 和 模拟 生成 的 数据 ， 利 用 计算 机 存储 和 处 理 数据 ， 利 用 数据 管理 和 统计 工具 分 
析 数 据 ， 这 是 第 四 范式 。®? 

在 第 四 范式 ， 数 据 获取 已 经 成 为 科学 研究 的 前 提 ， 而 且 数 据 的 获取 和 分 析 是 
实时 与 动态 的 。 因 为 大 数据 时 代 的 到 来 ，James Gray 当年 的 想法 正在 逐渐 成 为 现 
实 ， 例 如 ， 在 天 文学 领域 ， 有 的 观测 仪器 每 天 能 够 产生 PB 量 级 的 观测 数据 ， 这 
些 数据 被 提供 给 公众 进行 分 析 ， 分 析 的 结果 也 可 以 进行 相互 共享 。 

在 商业 应 用 领域 ， 当 数据 规模 从 小 数据 变 成 大 数据 之 后 又 开始 产生 奇妙 的 变 
化 。 谷 歌 公司 在 自然 语言 分 析 的 研究 中 发 现 ， 在 不 改变 算法 的 情况 下 ， 更 大 的 
数据 集 可 以 降低 收 到 一 个 单词 时 推测 下 一 个 单词 的 错误 率 。 据 此 ， 谷 歌 的 产品 
研发 总 监 Peter Norvig 表示 : “我 们 并 没有 比 别人 更 好 的 算法 ， 我 们 只 是 有 更 多 
的 数据 。” (We don”t have better algorithms than anyone else. We just have more 
data. ) Peter Norvig 和 他 的 谷歌 同事 于 2009 年 在 IEEE Intelligent System 发 表 了 《the 
Unreasonable Effectiveness of Data》 来 论述 数据 规模 对 分 析 结果 的 影响 。 因 此 ， 
对 于 某 些 应 用 ， 数 据 本 身 至 少 是 和 算法 同等 重要 的 ， 光 有 强大 的 算法 而 没有 足够 
规模 的 数据 也 无 法 得 到 良好 的 结果 。 


2. 计算 服务 化 


计算 能 力作 为 大 数据 应 用 的 基础 已 经 类 似 于 电气 革命 中 的 电能 。 与 此 同时 ， 
搭建 和 维护 大 数据 平台 的 技术 门槛 与 人 力 投 入 决定 了 不 可 能 所 有 有 计算 能 力 需 求 
的 实体 都 能 拥有 自己 的 平台 ， 因 此 计算 能 力 成 为 一 种 商业 服务 是 必然 的 趋势 ， 云 
计算 的 快速 发 展 已 经 证 明了 这 一 点 。 


3. 分 析 智 能 化 


大 数据 智能 分 析 是 在 传统 的 数据 挖掘 上 的 飞跃 。 传 统 的 数据 挖掘 对 应 的 分 别 
是 业务 数据 、 高 性 能 服务 器 和 机 器 学 习 。 首 先 ， 数 据 挖掘 是 面向 “小 数据 ”设计 


@ Hey,T., Tansley, S. & Tolle, K. (Eds.). (2010). The Fourth Paradigm: Data-Intensive Scientific 
Discovery. 
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的 ， 而 大 数据 智能 分 析 面向 的 是 “大 数据 ”， 所 以 二 者 所 依托 的 软件 和 硬件 架构 
是 不 一 样 的 。 

另外 ， 传 统 的 数据 挖掘 把 获得 的 知识 用 于 人 的 决策 支持 而 没有 自动 地 上 升 到 
智慧 的 层面 。 现 在 大 数据 、 云 计算 和 人 工 智 能 的 结合 的 目标 是 不 仅 要 使 知识 发 现 
的 过 程 自动 化 ， 而 且 还 要 从 知识 层面 飞跃 到 智慧 层面 ， 例 如 ，AlphaGo 学 习 了 人 
类 的 棋谱 之 后 会 生成 人 类 之 前 没有 实现 过 的 下 棋 方 法 。 传 统 数据 挖掘 和 未 来 智能 
化 应 用 之 间 的 差别 类 似 于 地 图 导航 应 用 和 人 工 智 能 自动 驾驶 汽车 之 间 的 差别 : 地 
图 导航 会 收集 汽车 的 位 置 数据 、 路 况 数据 和 地 图 数据 进而 计算 出 可 供 选择 的 路 线 ， 
但 是 采用 什么 样 的 路 线 和 如 何 驾 驶 是 由 驾驶 员 决 定 的 ， 地 图 导航 应 用 的 作用 就 是 
决策 支持 ， 自 动 驾 驶 汽车 在 获得 目的 地 数据 之 后 不 仅 要 计算 出 路 线 ， 而 且 还 需要 
控制 汽车 的 行驶 ， 更 重要 的 是 要 根据 行驶 过 程 发 生 的 各 种 情况 做 出 判断 和 决策 。 
因此 ， 相 比 于 传统 的 数据 挖掘 ， 这 是 范式 上 的 全 面 升 级 。 

在 计算 机 领域 有 人 把 计算 机 架构 部 分 的 “古老 ”知识 称 为 恐龙 (Dinosaur) ; 
以 此 为 例 的 话 ， 传 统 的 数据 挖掘 就 类 似 于 熊猫 了 。 虽 然 比 不 上 恐龙 ， 但 是 相 比 于 
这 些 新 生 代 的 科技 也 够 古老 的 了 ， 现 在 依然 存在 但 是 自然 条 件 下 的 生存 环境 已 经 
很 有 限 了 。 无 疑 ， 传 统 数据 挖掘 的 工具 和 方法 论 对 于 很 多 问题 依然 有 效 ， 但 昨日 
的 大 数据 已 经 成 为 今日 的 小 数据 ， 今 日 的 大 数据 正在 成 为 明日 的 小 数据 。 科 技 日 
新 月 异 的 时 代 需 要 在 理论 和 方法 层面 不 断 地 推陈出新 ， 新 的 科技 浪潮 也 会 催生 出 
新 的 方法 论 和 新 的 商业 应 用 模式 ， 对 此 我 们 拭目以待 。 


景 
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第 


2 


人 力 资 源 大 数据 分 析 模 型 


像 Facebook、Google、LinkedIn、Twitter 等 这 些 优 秀 的 互联 网 公司 ， 它 
们 的 人 才 战 略 和 实践 是 如 何 影响 企业 文化 和 业务 发 展 的 ? 相对 于 其 他 传统 的 
HR 部 门 ， 这 些 公 司 的 HR 如 何 赢 在 起 跑 线 上 ? 现任 美国 德勤 咨询 (Deloitte 
Consulting) 人 力 资本 顾问 经 理 Tracy Wang 总 结 了 几 条 原因 ， 其 中 之 一 便 是 人 才 
决策 用 数据 说 话 一 一 不 管 是 大 数据 还 是 小 数据 ， 能 用 数据 讲 故事 的 HR 才能 展现 
价值 。 对 于 HR 来 说 , 面 对 新 经 济 形式 及 科技 发 展 新 趋势 , 我 们 的 能 力 就 是 改变 ! 
组 织 变革 、 人 力 资 源 战略 转型 、AI 时 代 、 数 字 经 济 、 人 工 智能 、 云 计算 、 大 数据 ， 
HR 必须 要 关注 这 些 关 键 词 。 


人 力 资源 大 数据 分 析 价值 


1. 数据 思维 习惯 


HR 在 工作 及 行动 之 前 ， 要 习惯 于 花 一 定 的 时 间 在 分 析 问 题 上 面 。 如 果 你 已 
经 收集 了 历史 数据 〈 描 述 性 分 析 ) ， 并 且 用 这 些 数据 来 分 析 未 来 会 发 生 什 么 〈 预 
测 性 分 析 ) ， 然 后 设计 一 套 方案 去 解决 之 前 存在 的 问题 ， 很 有 可 能 之 前 的 问题 就 
不 会 再 出 现 〈 处 方 性 分 析 ) 。 这 是 一 种 有 效 的 管理 方式 。 能 够 使 管理 者 集中 精力 
有 效 地 把 组 织 向 前 推进 ， 而 不 是 无 限 地 重复 过 去 。 
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2. 分 析 的 三 个 层次 


预测 分 析 的 出 现 为 组 织 管理 潜力 的 提升 提供 了 强 有 力 的 实用 工具 。 分 析 是 艺 
术 和 科学 的 结合 。 艺 术 教 会 我 们 如 何 感知 世界 ， 科 学 教会 我 们 如 何 做 好 事情 。 当 
提 到 分 析 ， 人 们 会 自然 而 然 地 联想 到 统计 学 ， 但 这 是 不 完全 正确 的 。 在 数据 分 析 
中 ， 统 计 学 确实 起 到 了 重要 作用 ， 但 是 这 些 作 用 是 在 我 们 充分 理解 了 问题 内 部 的 
各 个 元 素 ， 相 互 作用 和 关系 之 后 才 开始 产生 。 分 析 首 先是 思想 框架 和 轴 辑 过 程 ; 
其 次 才 是 一 系列 的 统计 操作 。 

信息 的 交流 和 汇集 对 人 力 资源 或 者 是 人 力 资本 分 析 至 关 重 要 。 这 需要 相互 分 
离 的 数据 源 ， 尤 其 是 活动 数据 ， 包 括 调查 数据 ， 公 司 历史 数据 ， 管 理 数据 等 。 有 
了 这 些 数据 才能 去 完成 尽 可 能 完整 的 现在 和 未 来 公司 面貌 的 拼图 。 这 一 过 程 有 利 
于 公司 做 出 更 好 的 决策 并 在 实际 应 用 中 得 到 了 验证 。 分 析 可 以 分 为 描述 性 分 析 、 
预测 性 分 析 、 处 方 性 分 析 三 个 层次 。 

(1) 描述 性 分 析 。 传 统 的 人 力 资 源 矩 阵 包含 了 相对 高 效 的 工具 ， 例 如 ， 员 
工 流动 率 、 岗 位 空缺 时 间 、 招 聘 成 本 、 雇 员 人 数 和 培训 人 数 等 。 描 述 性 人 力 资源 
分 析 描述 了 不 同 因素 之 间 的 关系 和 历史 数据 所 包含 的 模式 。 这 是 一 切 分 析 的 基础 ， 
其 中 包括 了 仪表 盘 、 计 分 卡 、 劳 动力 分 布 、 基 本 模式 的 数据 挖掘 和 周期 报告 。 

(2) 预测 性 分 析 。 预 测 性 分 析 运 用 统计 、 建 模 和 数据 挖掘 等 技巧 ， 通 过 分 
析 现 有 的 和 历史 数据 对 未 来 进行 预测 。 分 析 结果 是 关于 概率 和 可 能 的 影响 。 例 如 ， 
预测 性 分 析 通 过 建 模 来 提高 雇用 、 培 训 和 提拔 正确 员工 的 概率 。 

(3) 处 方 性 分 析 。 通 过 分 析 复 杂 的 数据 来 预测 结果 ， 提 供 决策 选项 并 展示 
其 他 的 商业 影响 〈 组 织 优化 、 业 务 发 展 等 ) 。 

总 体 上 讲 ， 分 析 过 程 包 括 了 从 简单 的 人 力 资源 矩阵 报告 到 对 商业 应 用 的 处 方 
性 分 析 。 虽 然 金融 资本 (现金) 和 经 济 资本 无形 资 产 ) 是 商业 的 血液 ， 但 是 一 
切 商业 的 经 营 和 运作 最 终 都 要 人 来 执行 。 


3. 分 析 的 两 种 价值 


对 应 企业 来 说 ， 最 根本 的 管理 问题 是 我 们 如 何 才 能 有 效 地 管理 人 才 。 相 比 于 
有 形 资产 ， 人 的 行为 更 加 复杂 和 难以 预测 。 这 种 不 确定 性 使 很 多 管理 人 员 更 关注 
于 有 形 资产 ， 但 最 终 公 司 都 需要 通过 员工 的 劳动 来 创造 价值 。 
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分 析 的 目的 是 在 大 量 的 数据 中 找到 最 好 的 路 径 去 发 现 隐藏 的 价值 。 这 些 价值 
体现 为 两 种 形式 : 经 济 的 和 金融 的 。 经 济 数据 包括 了 大 量 非 现金 的 物品 和 流程 ， 
例如 市 场 知名 度 , 顾客 满意 度 等 表 外 项 目 资产 ,但 它们 最 终 会 转化 成 为 金融 价值 。 
金融 价值 包括 现金 、 股 票 与 债券 等 流动 性 资源 。 这 些 都 包括 在 收益 表 和 资产 负 
债 表 。 

对 于 人 力 资源 分 析 的 价值 主要 有 以 下 几 个 方面 : 

(1) 监控 企业 的 状态 ; 

(2) 辨别 需要 重点 关注 的 部 门 ; 

(3) 发 现 影响 企业 的 关键 因素 ; 

(4) 预测 劳动 力 水 平 ; 

(5) 研究 员工 为 什么 选择 留 下 或 者 离开 ; 

(6) 如 何 使 员工 不 断 适 应 商业 环境 的 变化 。 


4. 分 析 的 作用 


数据 分 为 结构 化 和 非 结构 化 两 类 。 金 融 数据 大 多 是 结构 化 的 ， 而 经 济 数据 和 
无 形 资产 数据 主要 是 非 结 构 化 的 。 如 图 3-1 所 示 的 分 析 和 数据 的 关系 ， 从 工业 革 
命 以 来 的 200 多 年 ， 我 们 一 直 在 关注 结构 化 数据 ; 成本、 运营 周期 、 产 量 等 。 但 
是 根据 IBM 的 研究 , 现在 至 少 80% 的 数据 是 非 结 构 化 , 包括 图 片 、 音 频 和 视频 等 。 
随 着 社交 网 络 的 爆炸 性 增长 ， 非 结构 化 数据 还 会 持续 增长 。 而 且 结构 化 数据 和 非 
结构 化 数据 在 相互 融合 而 成 为 混合 型 数据 。 虽 然 混 合 型 数据 是 未 来 分 析 的 关键 ， 
它 同 时 也 使 分 析 过 程 变 得 更 加 复杂 。® 


描述 性 70% 预测 性 50% 处 方 性 80% 
人 mr、 7h 
金融 的 经 济 的 
结构 性 的 非 结构 性 的 
图 3-1 数据 地 图 


@ Jac Fitz-Enz, John R. Mattox II. Predictive Analytics for Human Resources. 
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这 也 是 为 什么 分 析 是 必 不 可 少 的 。 当 我 们 面 对 复杂 的 混合 型 数据 ， 只 有 通过 
逻辑 考证 和 统计 研究 才 有 可 能 透 过 现象 看 到 本 质 。 

正如 金融 和 市 场 领域 一 样 ， 人 力 资源 领域 一 直 在 发 生 着 变化 。 劳 动力 供给 和 
成 本 ， 技 能 培训 和 领导 力 等 都 随 着 市 场 和 商业 需求 在 持续 地 发 生 着 变化 。 因 为 市 
场 的 变化 ， 竞 争 对 手 的 行为 、 新 技术 的 出 现 等 都 可 能 导致 上 一 年 的 招聘 策略 不 再 
有 效 。 随 着 经 济 的 发 展 ， 获 得 和 留 住 具有 核心 技能 的 人 才 变 得 越 来 越 困难 。 这 些 
挑战 都 需要 我 们 运用 分 析 来 优化 人 力 资源 管理 。 


5. 分 析 的 目的 


数据 分 析 的 目的 ， 最 终 可 以 实现 “Intelligent”， 助 力 HR 服务 智能 化 ， 达 到 
“Insight”， 进 行 深度 洞察 ， 通 过 数据 驱动 决策 建议 ， 实 现 “Individual”， 促 进 
个 性 化 和 精细 化 管理 (图 3-2)。 


f | 


Intelligent: 
[> 助力 HR 服务 智能 化 
BIG Insight: | 
DATA 时 > 。 深度 洞察 ， 通 过 数据 驱动 决策 建议 
Individual: 
[> 促进 个 性 化 、 精 细 化 管理 
图 3-2 HR 大 数据 分 析 的 目的 
6. 分 析 的 价值 链 


经 济 和 金融 价值 需要 从 一 系列 相关 联 的 活动 中 获得 。 在 现实 中 ， 这 些 活动 像 
交流 电 一 样 在 公司 的 战略 规划 和 运营 执行 之 间 来 回 往返 。 这 个 过 程 展现 在 图 3-3 
中 。 战 略 管理 链条 开始 于 公司 顶层 的 战略 规划 ， 需 要 回答 的 核心 问题 是 : 如 何 创 
造 收入 ? 这 个 问题 对 所 有 的 公司 都 适用 ， 每 个 公司 又 有 不 同 的 答案 。 公 司 要 获得 
持续 的 繁荣 需要 在 投入 资源 之 前 尽 可 能 地 熟悉 市 场 。 这 其 中 包括 客户 、 竞 争 者 、 
科技 、 政 府 政策 、 经 济 环境 和 劳动 力 市 场 以 及 其 他 的 宏观 条 件 。 
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战略 商业 计划 ; 
变革 产品 
销售 服务 


战略 


顾客 -分 析 需 求 : 


过 程 时 间 
产品 质量 
输出 量 


运营 -计划 目标 : 


1 
i 


人 才 管 理 : 
人 力 规划 -雇用 
人 员 配 置 -补偿 
人 员 发 展 -吸引 

人 员 保 留 


管理 同时 也 是 企业 的 内 化 能 力 ， 包 括 企 业 的 视野 、 领 导 力 、 品 牌 、 文 化 、 金 
融 实力 和 员工 能 力 等 。 通 过 这 种 双向 评估 ， 公 司 拟订 计划 通过 产品 和 服务 来 满足 
客户 的 需求 。 下 一 步 就 是 通过 客户 的 需求 和 反馈 进行 实际 的 产品 设计 和 生产 。 以 


经 济 效益 损益 表 : 
收入 费用 
资产 负债 表 : 


资产 负债 


顾客 反响 : 
沟通 和 反应 的 数量 
转变 效率 和 消费 满意 度 
回报 率 


运营 效果 : 
单位 成 本 -循环 周期 
数量 :输入 输出 
质量 : 差错 率 收缩 修订 


于 


人 力 服务 : 

人 力 规 划 及 继任 计划 
雇用 成 本 - 职 缺 填补 时 间 - 质 量 
工资 和 福利 成 本 
学 习 和 发 展 花费 上 的 约定 
保留 支持 


图 3-3 分 析 的 价值 链 


上 的 公司 运营 都 依赖 于 人 力 资源 来 实现 。 


接 下 来 ， 价 值 链 将 从 计划 层面 转 入 执行 层面 。 如 果 没 有 合适 的 人 执行 ， 计 划 
将 只 是 空谈 。 从 这 个 角度 来 看 ， 人 力 资源 分 析 的 目的 在 于 发 现 劳 动力 管理 的 最 有 
效 方法 、 优 化 员工 表现 和 留 住 人 才 。 因 此 人 力 资源 部 门 有 责任 在 招聘 、 薪 酬 、 激 


励 和 维持 人 才 等 方面 为 运营 主管 提供 支持 。 


本 质 上 ， 分 析 是 一 种 可 以 用 来 发 现 机 遇 、 解 决 问题 和 预测 投入 产 出 的 管理 工 
有 具 。 像 其 他 工具 一 样 ， 能 否 被 正确 地 使 用 和 是 否 是 一 个 好 的 工具 是 两 个 不 同 的 问 
题 。 如 果 不 想 实际 解决 问题 ， 任 何 工具 都 是 没有 作用 的 。 因 此 ， 核 心 还 是 使 用 分 


析 工 具 的 人 。 
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人 力 资源 大 数据 分 析 模型 


1. 提出 问题 


分 析 的 过 程 并 不 只 是 进行 统计 分 析 。 分 析 任 何 问题 的 第 一 步 是 提出 问题 。 
3-4 展示 了 分 析 一 个 具体 问题 的 过 程 。 通 过 提出 问题 来 聚焦 到 需要 解决 的 核心 
问题 上 。 


人 评估 ) 
应 用 统计 学 或 其 他 方法 来 验证 预测 模型 的 有 效 性 和 实用 性 。 
特点 : 记录 经 济 和 人 金融 方面 获得 的 价值 。* 

收益 : 显示 出 提高 所 有 股东 价值 的 最 高 和 最 低 值 的 变化 曲线 。 


六 六 


处 方 性 分 析 ”、、 = 


Fk CS 
Level 4: 建 模 


设计 预测 性 的 实验 ， 将 人 、 政 策 、 流 程 及 绩效 联系 在 一 起 。 
特点 : 描述 所 期 望 的 模式 来 展现 所 发 现 的 相关 性 或 因果 关系 。 
\、 收益 : 用 于 理解 复杂 交互 和 相互 依赖 关系 的 可 测试 假设 。 


y 六 -av NN 
预测 性 分 析 Level 3: 关联 


寻找 影响 组 织 的 有 影响 力 的 外 部 和 内 部 力量 。 
特点 : 显示 人 际 、 结 构 和 关系 数据 之 间 交 互 作用 的 影响 。 


收益 : 为 单纯 的 绩效 改进 提供 机 会 或 原因 。 
三 Level 2: 展现 人 
按 类 别 显示 数据 ， 寻 找 明显 的 关联 性 和 趋势 ( 非 预测 ) 。 
描述 性 分 析 特点 : 仪表 盘 和 报告 显示 成 本 、 时 间 和 数量 的 效率 。 
四 收益 : 作为 预测 性 和 处 方 性 分 析 的 基础 。 


上 也 尖 放 他 


Sy 
(Level 1: 组 织 ) 
ss 将 数据 收集 到 数据 库 中 并 验证 准确 性 。 
特点 : 等 待 被 应 用 的 静态 数据 。 
人 收益 : 解决 数据 分 析 的 根本 性 问题 即 数据 可 用 性 。 J 


备注 : 
* 金融 数据 : 政府 、 企 业 或 社团 的 资金 或 其 他 流动 资源 。 
经 济 数据 : 有 实际 的 非 现金 意义 或 使 用 有 一 定 影响 的 物质 资源 。 
市 场 信用 。 
** 包 含 股东 、 客 户 、 雇 员 和 社区 


图 3-4 数据 分 析 的 层次 
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2. 规划 


规划 是 分 析 的 第 二 步 。 这 一 步 从 收集 和 组 织 人 力 资源 数据 开始 ， 这 一 步 通 常 
困难 重重 。 对 大 多 数 企 业 而 言 ， 首 先 拥有 信息 系统 和 数据 库 的 是 财务 部 门 ， 其 次 
是 研发 部 门 ， 最 后 是 产品 和 市 场 销售 部 门 。 人 力 资源 系统 开始 出 现在 市 场 是 大 概 
1970 年 。 之 后 ， 出 现 了 处 理 福利 和 保险 的 信息 系统 ， 再 后 又 有 了 用 于 培训 的 信 
息 系统 ， 但 是 这 些 系 统 都 是 相互 独立 的 。 这 些 信 息 系 统 只 是 对 数据 进行 保存 和 更 
新 ， 几 乎 没有 任何 的 分 析 功 能 。 这 也 就 是 为 什么 今天 要 建立 一 套 分 析 系统 是 如 此 
耗 时 和 成 本 高 昂 的 原因 。 这 些 信息 系统 从 一 开始 就 不 是 为 了 做 数据 分 析 而 设计 的 。 


3. 展现 


完成 了 基本 的 数据 收集 之 后 , 很 多 公司 都 通过 仪表 盘 来 给 内 部 用 户 提供 数据 。 
仪表 盘 是 描述 性 数据 的 扩展 ， 体 现 了 当前 的 状态 和 未 来 的 趋势 。 如 同 财务 数据 一 
样 ， 仪 表盘 报告 的 是 历史 数据 。 过 去 的 趋势 是 否 会 延续 取决 于 现象 背后 的 支撑 条 
件 和 对 未 来 的 假设 。 


4. 关联 


在 这 个 层面 ， 重 点 在 于 关注 数据 之 间 的 关系 。 一 个 普遍 操作 是 把 所 在 公司 的 
数据 和 其 他 公司 的 数据 进行 比较 。 而 且 需 要 相 比 较 的 公司 之 间 有 足够 的 相似 性 ， 
比如 竞争 对 手 之 间 。 

数据 分 析 还 需要 认识 到 在 组 织 中 有 三 种 不 同类 型 的 资本 人 力 资 本 ， 结 构 化 
资本 和 关系 化 资本 。 人 力 资本 是 公司 员工 。 结 构 化 资本 是 公司 拥有 的 资产 ， 包 括 
设备 、 软 件 、 专 利 等 。 关 系 化 资本 是 公司 内 部 和 公司 与 外 界 的 连接 。 这 一 分 类 展 
现在 了 表 3-1 中 。 一 种 类 型 的 资产 发 生变 化 会 影响 其 他 类 型 的 资产 。 

表 3-1 组 织 资本 之 间 的 关系 
组 织 资本 之 间 的 反应 

人 力 资本 一 结构 化 资本 ”一 “关系 化 资本 
减少 劳动 力 廉价 销售 不 动产 留 住 客户 

必须 的 新 技能 转变 管理 风格 寻找 新 的 加 盟 方 
增加 培训 投资 新 设备 重建 供应 商 关 系 
聚焦 服务 改造 实体 店 降低 员工 流失 率 
告知 员工 加 速 研 发 加 速 产品 上 市 时 间 
新 的 福利 规定 生产 或 使 用 绿色 产品 “游说 立法 机 关 
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续 表 
组 织 资本 之 间 的 反应 


新 标识 党 


更 大 的 控制 范围 实施 评估 

重新 设计 工作 空间 ”| 促进 服务 文化 
改善 服务 新 的 供应 商 关 系 
控制 成 本 减少 商务 旅行 


5. 建 模 


在 这 一 层面 ， 分 析 工 作 将 从 描述 性 提升 到 预测 性 。 描 述 性 分 析 是 展示 到 目前 
为 止 发 生 了 什么 。 通 过 历史 数据 来 建立 分 析 模 型 ， 例 如 ， 领 导 力 模型 。 建 立 这 个 
模型 是 为 了 回答 关于 领导 力 的 特定 问题 ， 例 如 : 构建 领导 力 的 目的 是 什么 。 


6. 评估 


上 一 阶段 建立 的 模型 会 把 人 、 规 则 和 流程 连接 起 来 去 实现 某 一 方面 的 优化 。 
这 一 模型 会 对 特定 模式 和 关联 进行 预测 。 预 测 完成 之 后 ， 可 以 对 预测 结果 进行 观 
察 和 校 验 。 对 模型 的 验证 可 以 持续 地 进行 。 


7. 典型 应 用 : 员工 流失 分 析 


对 员工 流失 率 的 研究 是 数据 分 析 应 用 得 最 广 的 方面 之 一 。 因 为 分 析 所 需要 的 
数据 都 在 人 力 资源 的 数据 库 中 。 员 工 信 息 包含 原始 信息 ， 如 入 职 时 间 、 绩 效 报告 、 
状态 改变 和 离职 时 间 等 。 这 些 数 据 可 以 用 来 研究 员工 留 下 或 是 离职 的 原因 。 但 是 
鲜 有 研究 人 员 对 员工 流失 率 对 公司 的 商业 影响 进行 深入 研究 。 

Leigh Branham 一 直 致 力 于 员工 保留 率 的 研究 。 他 把 员工 的 离职 原因 归 为 67 
类 。 其 中 , 因为 个 人 原因 的 离职 无 法 预防 , 例如 , 重新 回 学 校 学 习 或 者 家 庭 迁 走 等 。 
不 过 有 57 种 原因 是 可 以 得 到 预防 的 。Leigh Branham 还 指出 如 果 员工 有 四 方面 的 
需求 没有 得 到 满足 ， 离 职 的 倾向 就 会 增加 。 这 四 方面 的 需求 是 : 信任 、 希 望 、 付 
出 得 到 回报 和 能 力 得 到 认可 。Branham 进一步 分 出 了 相互 独立 的 7 大 离职 原因 。 

(1) 岗位 或 职场 离 预 期 太 远 ; 
(2) 员工 与 岗位 不 匹配 ; 


Q@ 利 ， 布 拉 纳 姆 . 留 住 好 员工 : 揭 开 员工 流失 的 7 大 隐秘 . 王 育 伟 ， 译 . 北京 : 中 信 出 版 集团 .2017. 
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(3) 对 员工 的 指导 和 反馈 严重 缺失 ; 

(4) 发 展 与 晋升 机 会 太 少 ; 

(5) 感觉 未 得 到 重视 和 认可 ; 

(6) 因 工 作 过 度 和 工作 与 生活 失衡 承受 了 巨大 压力 ; 
(7) 对 高 层 领导 失去 信任 和 信心 。 


8. 关于 数据 分 析 的 两 个 重要 原则 


数据 标准 必 不 可 少 和 无 形 资产 的 重要 性 是 关于 数据 分 析 的 两 个 非常 重要 的 原 
则 。 会 计 学 发 展 了 一 整套 标准 去 规范 财务 数据 。 如 果 没 有 统一 的 标准 ， 财 务 报表 
将 变 得 混乱 和 无 法 理解 。 最 终 ， 全 球 会 统一 使 用 一 套 会 计 学 标准 。 人 力 资 源 迄 今 
为 止 还 没有 一 套 统一 的 标准 。 但 是 建立 一 套 行业 标准 确实 至 关 重 要 。 从 20 世纪 
80 年 代 中 期 以 来 ， 人 力 资源 已 经 掌握 了 人 力 资源 管理 过 程 中 “有 形 ” 部 分 , 例如 ， 
招聘 和 培训 的 花费 、 薪 酬 、 人 力 成 本 等 。 领 导 力 、 工 作 意 愿 、 投 入 程度 、 企 业 文 
化 、 责 任 心 、 忠 诚 度 、 公 司 品牌 是 人 力 资源 的 无 形 资产 ， 现 在 应 该 更 加 关注 “无 
形 ” 的 部 分 ， 对 “无 形 ” 部 分 的 优化 能 够 为 公司 持续 地 创造 价值 。 


人 力 资源 大 数据 分 析 路 径 


利用 大 数据 进行 分 析 首 先 要 清楚 分 析 的 目的 ， 明 白 要 向 公司 高 层 传递 什么 样 的 
信息 ， 然 后 根据 目的 进行 大 数据 的 挖掘 ， 比 如 根据 个 人 网 络 行为 、 电 话 信息 、GPS、 
监测 信息 、 身 体 状况 、 社 会 媒体 、 购 买 行为 、 信 用 信息 、 宏 观 经 济 情况 等 获取 相应 数 
据 ， 经 过 算法 、 建 模 等 流程 分 析 过 去 发 生 了 什么 ? 现在 会 发 生 什 么 ? 为 什么 发 生 ? 
将 来 会 发 生 什 么 ? 以 做 出 可 以 付出 行动 的 预测 ， 为 管理 决策 提供 依据 〈 图 3-5) 。 


网 络 行为 

WE 过 去 发 生 了 什么 ? | 信息 |、 
人 信用 上 | | [现在 全 肥 下 人? | |_ | 可 以 全 
监测 一 六 大 数据 4 志 观 经 济 | | | 为 什么 发 生 ? 上 知识 站 站 出生 并 
网 络 视频 了 信用 机 构 

人 发 刀 
将 来 会 发 生 什么 ? | 智能 
社会 媒体 


图 3-5 ”人力 资源 大 数据 分 析 路 径 
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1. 数据 从 哪里 来 ? 会 共享 吗 ? 


当 你 明白 了 要 向 公司 高 层 传递 什么 样 的 信息 的 时 候 , 就 可 以 真正 动手 执行 了 。 
通常 来 说 ， 最 困难 的 部 分 是 收集 数据 。 好 在 人 力 资源 系统 在 不 断 地 优化 ，IT 部 
门 可 以 提供 有 效 的 帮助 。 而 且 ， 随 着 人 力 资源 共享 服务 中 心 的 进一步 发 展 ， 数 据 
的 存储 更 加 完备 。 下 一 步 就 是 如 何 用 正确 的 方法 从 正确 的 人 那儿 得 到 数据 。 

对 于 大 多 数 公司 来 说 ，IT 部 门 会 有 你 所 需要 的 数据 ， 因 为 人 力 资源 信息 系 
统 都 是 由 他 们 部 署 和 维护 的 ， 人 力 资源 共享 服务 中 心 也 存储 了 大 量 数据 。 虽 然 人 
力 资源 系统 一 直 在 不 断 地 发 展 和 更 新 ， 有 价值 的 人 力 资源 数据 仍然 分 布 在 不 同 的 
系统 中 。 表 3-2 展示 了 要 完成 数据 分 析 所 需 的 不 同 数据 源 。 

表 3-2 数据 来 源 
| 效率 | 效力 | 产 出 
|_ 人 力 资源 信息 系统 | 评价 体系 | 业绩 评价 系统 
| 营业 清 购 单 的 数量 | 学 习 满 章 度 | 生产 速度 | 
| 补充 空缺 职位 的 时 间 | 评估 结果 ”| 生产 率 稀 量 | 
| 与 职 fr 相 关 的 薪 表 | 业绩 评价 系统 。 | 质量 体系 


| 则 多 和 六 |  。 业 纺 入 级 | 失误 率 | 
| 雇用 新 资源 的 成 本 | 高洁 人 才 鉴 别 ”| 客户 服务 或 管理 体系 | 
| 培训 新 员工 成 本 |。 人力 资源 信息 系统 。 | 顾客 忠诚 度 | 
| | 个 季度 或 年 的 营业 额 。。 | 销售 额 | 
| | 委 失 的 生产 能 力 (新 水 x 没有 满 工作 的 时 间 )| 。 客户 管理 /财务 
| | I 生 | 


不 同 的 公司 的 成 熟 程度 差别 巨大 。 有 的 公司 每 天 都 收集 和 使 用 他 们 的 数据 ， 
而 有 的 公司 要 识别 核心 绩效 指数 都 举步维艰 。 对 于 不 太 成 熟 的 公司 ， 这 个 过 程 当 
然 就 更 加 艰难 。 

判定 数据 源 是 必 不 可 少 的 步骤 ， 但 除 此 之 外 还 有 更 多 的 工作 需要 完成 。 有 的 
时 候 数 据 拥有 者 并 不 能 够 或 者 愿意 去 分 享 数据 。 这 可 以 有 各 种 原因 或 者 理由 ， 例 
如 ， 现 有 信息 系统 不 支持 数据 导出 ， 或 者 有 的 数据 是 政府 规范 或 者 公司 政策 规定 
的 “敏感 ”数据 。 个 人 隐私 数据 应 该 得 到 保护 ， 比 如 性 别 、 年 龄 、 民 族 和 健康 状 
态 等 。 经 常 出 现 的 情况 是 ， 有 的 数据 拥有 者 就 是 拒绝 分 享 数据 。 在 某 些 公 司 ， 需 
要 高 层 的 支持 者 来 推动 这 项 工作 ， 有 时 甚至 需要 建立 标准 的 流程 。 所 以 要 对 此 有 
心理 准备 。 
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2. 如 何 处 理 这 些 数据 ? 


通常 来 说 ， 收 集 这 些 数 据 是 为 了 四 个 目的 : 描述、 解释 、 预 测 和 优化 。 

(1) 描述 。 在 描述 公司 现 有 状态 时 ， 尽 量 使 用 简单 的 统计 词汇 ， 例 如 ， 频 
率 计数 、 平 均值 和 标准 差 等 。 另 外 就 是 使 用 统一 的 标准 。 例 如 ， 用 9 级 模型 来 说 
明 员工 的 绩效 。 员 工 绩效 可 以 用 1 ~ 9 之 间 的 某 个 数字 来 表示 。 

(2) 解释 。 描 述 之 后 紧 接 着 是 解释 ， 这 需要 对 数据 进行 挖掘 ， 发 现 之 间 的 
关系 。 例 如 ， 我 们 根据 员工 的 职业 技能 把 员工 分 为 初级 、 中 级 和 高 级 ， 我 们 可 能 
会 发 现 一 个 隐藏 的 规律 是 绩效 高 的 员工 的 职业 技能 级 别 更 高 。 

通常 企业 的 疑难 杂 症 比 表 面 症状 要 复杂 得 多 。 这 是 为 什么 我 们 需要 通过 分 析 
来 发 现 内 部 的 关联 。 员 工 、 运 营 流程 、 资 源 、 顾 客 需求 、 新 的 法 规 ， 甚 至 天 气 都 可 
能 是 症状 的 根源 。 比 如 ， 对 于 员工 流失 率 ， 我 们 分 析 相 关 数 据 需 要 考虑 以 下 问题 : 

总 流失 率 是 多 少 ? 

什么 类 型 的 员工 会 离开 ? 

离开 的 员工 处 于 职业 生涯 的 哪个 阶段 ? 

他 们 为 什么 会 离开 ? 

如 果 我 们 已 经 找到 了 这 些 问 题 的 答案 。 我 们 还 想 进 一 步 知 道 些 什 么 ?员工 流 
失 有 什么 影响 ? 员工 流失 率 受 哪些 因素 的 影响 ? 我 们 找寻 答案 的 意义 何在 ? 如 果 
我 们 不 能 把 对 员工 流失 率 的 分 析 和 目的 联系 起 来 这 些 分 析 就 没有 意思 ， 这 些 目的 
可 能 包括 优化 流程 、 降 低 成 本 和 增加 利润 等 。 这 是 为 什么 我 们 反复 强调 在 开始 分 
析 之 前 一 定 要 投入 足够 的 时 间 与 精力 来 确定 所 要 分 析 的 目标 。 

(3) 预测 。 推 论 统 计 ， 例 如 ， 相 关 性 分 析 、 回 归 分 析 和 方差 分 析 等 可 以 帮 
助 预测 未 来 。 方 差分 析 可 以 帮助 发 现 不 同类 之 间 的 差别 。 相 关 性 分 析 和 回归 分 析 
可 以 发 现 不 同 变量 之 间 的 关系 。 例 如 ， 职 业 技能 和 绩效 之 间 的 关系 。 

(4) 优化 。 预 测 模型 完成 之 后 ， 就 可 以 实际 执行 来 优化 绩效 。 通 过 监控 输 
入 变量 和 实际 的 绩效 来 构建 反馈 的 回路 。 这 样 公司 用 于 优化 绩效 的 投入 就 可 以 有 
的 放 矢 。 

优化 的 流程 可 以 有 多 种 形式 。 比 如 以 下 的 情况 : 员工 培训 的 预算 减少 了 ， 但 
是 目标 没有 改变 ， 每 年 培训 和 名 员工 ， 在 为 期 一 个 月 的 培训 期 内 让 员工 熟练 党 
握 所 需 技能 。 在 这 种 情况 下 ， 效 率 就 受到 了 影响 。 员 工 培训 负责 人 需要 根据 预算 
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来 调整 课程 内 容 。 这 可 以 通过 增加 低 成 本 的 在 线 课程 或 者 减少 昂贵 课程 来 实现 。 
这 样 的 改变 导致 的 结果 可 能 是 员工 培训 参与 度 的 降低 ， 因 为 培训 过 程 中 面对面 的 
交流 减少 了 ; 课程 数量 的 减少 可 能 导致 培训 质量 的 下 降 。 这 些 结果 都 需要 实际 数 
据 来 检验 。 


3. 数据 格式 


如 今 保存 和 传递 数据 的 格式 有 很 多 种 ， 包 括 HTML、XML、HRXMLI.、 
TEXT、CSV、SQL、SPSS、MS Excel 和 MS Access 等 ， 而 且 数 据 格式 的 种 类 还 
在 不 断 增加 。HR 专业 人 士 大 多 使 用 MS Excel 和 MS Access， 而 HR 信息 系统 通 
常用 SQL 等 关系 型 数据 库 保存 数据 。 因 此 能 够 整合 不 同 的 数据 格式 的 数据 至 关 
重要 。 


4. 数据 质量 


数据 质量 会 直接 影响 数据 分 析 的 结果 。 在 进行 数据 分 析 之 前 ， 应 该 从 以 下 几 
个 方面 对 数据 进行 检查 。 

(1) 数据 缺失 。 不 是 所 有 的 数据 集 都 是 完整 的 。 如 果 数 据 量 非常 大 ， 而 且 
只 有 比例 很 少 的 数据 缺失 ， 对 整体 的 分 析 结 果 影 响 不 是 很 大 。 但 是 ， 如 果 数 据 缺 
失 比 例 达到 一 定 程度 ， 就 要 考虑 把 有 数据 缺失 的 变量 从 分 析 中 除去 ， 同 时 应 该 调 
查 数据 缺失 的 原因 。 

(2) 数据 错误 。 录 入 错误 是 最 常见 的 情况 。 拼 写 错误 等 发 生 的 频率 较 低 ， 
而 且 容 错 率 较 高 ， 对 结果 影响 较 小 。 但 是 持续 出 现 的 系统 性 错误 ， 应 该 得 到 修正 
数据 库 错 误 , 在 数据 导出 过 程 中 , 数据 库 错误 时 常 发 生 , 应 该 获取 IT 部 门 的 帮助 
数据 排列 错误 ， 在 数据 整合 的 过 程 中 ， 因 为 表单 结构 的 变化 ， 可 能 出 现 数据 排列 
错误 的 情况 。 


5. 数据 分 析 成 熟 度 模型 
根据 图 3-6 数据 分 析 成 熟 度 模型 ， 我 们 就 关键 步骤 以 百度 为 例 进行 分 析 。9 


@ 数据 来 源 : 王 崇 良 . 2015 年 eHR 年 度 大 会 . 
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业务 价值 


| 诊断 间 题 ， 为 什么 发 生 
原 旭 数据 oC 


数据 分 析 成 熟 度 
3-6 ”数据 分 析 成 熟 度 模型 


(1) 原始 数据 一 一 数据 净化 

前 文 提 到 ， 数 据 获取 最 经 常 遇 到 的 问题 就 是 数据 获取 的 壁垒 。 数 据 集 中 于 财 
务 部 门 、IT 部 门 ， 以 及 人 力 资源 信息 系统 、 人 力 资源 共享 服务 中 心平 台 等 。 这 
就 需要 打破 信息 孤岛 (图 3-7) 。 人 力 资源 原始 数据 的 获取 ， 同 样 需要 打破 招聘 、 
入 职 、 试 用 期 、 培 训 、 绩 效 、 发 展 、 离 职 等 各 方面 信息 孤岛 ， 多 部 门 合作 ， 才 能 
采集 到 “大 ”数据 。 


招聘 入 职 试用 期 培训 绩效 发 展 离职 


3-7 ”打破 信息 孤岛 


(2) 基础 报表 定制 报表 

人 力 资源 的 数据 可 以 从 比较 成 熟 的 eHR 系统 里 导出 基础 报表 , 比如 入 职 信息 、 
人 事主 数据 、 离 职 信息 ，HROP 报表 入职、 离职 、 在 职 ) ， 集 团 公 司 员工 人 数 
表 ， 薪 酬 明细 表 及 年 平均 工资 表 等 〈 图 3-8) 。 
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et HROP 入 职 报表 
HROP 报 表 HROP 离职 报表 

人 事主 数据 HROP 在 职 报表 

离职 信息 集团 员工 人 数 表 (预算 齐备 率 ) 
薪酬 明细 报表 | | 年 平均 工资 报表 


图 3-8 自 定义 明细 报表 


(3) 指标 体系 搭建 和 仪表 盘 

在 基础 报表 的 基础 上 搭建 人 力 资源 指标 体系 ， 创 建 仪表 盘 。 比 如 ， 人 力 资 源 
指标 体系 搭建 主要 含 人 力 资 源 概况 、 人 力 资源 现状 、 关 键 人 才 分 析 、 入 职 和 离职 
分 析 。 组 织 概况 总 览 主要 包含 总 人 数 、 齐 备 率 、 离 职 率 、 人 才 占 比 ， 人 力 资 源 现 
状 主要 是 在 职 人 数 、 员 工分 布 、 人 员 流 动 、 晋 升 分 析 ; 关键 人 才 分 析 主 要 是 人 才 
流动 、 趋 势 分 析 、 入 离职 对 比 ， 入 职 分 析 包含 了 入 职 人 数 、 新 入 职 结构 分 析 、 薪 
资 涨幅 分 布 ， 离 职 分 析 包 含 离职 人 数 、 一 定期 限 离 职 率 、 趋 势 、 分 布 、 原 因 ; 销 
售 分 析 包含 收入 增幅 、 效 能 分 析 、 上 线 单 量 、 定 级 分 析 等 。 分 析 的 维度 主要 是 组 
织 、 层 级 序列 、 司 龄 年 龄 、 学 历 雇 主 、 员 工 类 型 、 汇 报 层级 、 管 理 幅 度 、 绩 效 分 
档 和 渠道 原因 〈 图 3-9， 图 3-10) 。 


一 一 一 一 一 一 一 一 一 分 析 模 块 和 指标 分 析 维 度 
组 织 概况 总 览 总 人 数 、 齐 备 率 、 离 职 率 、 人 才 占 比 人 组织 

层级 序列 
人 力 现状 在 职 人 数 、 员 工分 布 、 人 员 流 动 、 晋 升 分 析 一 一 一 
司 龄 年 龄 
关键 人 才 分 析 人 才 流 动 、 趋 势 分 析 、 入 离职 对 比 学 历 雇主 


(员工 类 型 
= \ J 
入 职 分 析 入 职 人 数 、 新 入 职 结构 分 析 、 薪 资 泪 分 布 | 广博 


一 
离职 分 析 ”| 离职 人 数 ， 年 /YTD/ 月 离职 率 、 趋 势 、 分 布 、 原 因 | | 管理 幅度 
绩效 分 档 
一 
渠道 原因 


销售 分 析 收入 增幅 、 效 能 分 析 、 上 线 单 量 ， 定 级 分 析 


图 3-9 自 定义 明细 报表 
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人 员 齐备 率 关键 人 才 占 比 年 度 离职 率 关键 人 才 年 离职 率 
9 00% 1406 eo 0 0 ov es 
Ea 2 全 “0 
14% | 7% 46% 1998% 
图 3-10 ”仪表 盘 


(4) 数据 可 视 化 ， 激 活 数据 
数据 可 视 化 的 魅力 并 不 在 于 统计 ， 而 在 于 表现 数据 与 数据 之 间 的 关系 。 通 过 
数据 可 视 化 ， 借 助 于 图 形 化 手段 ， 清 晰 有 效 地 传达 与 沟通 信息 (图 3-11)。 


天职 


Now 
8.86 年 


2007-05-30 2007-12-12 2008-04-01 2011-03-01 2011-04-01 2014-03-01 2015-10-01 
入 职 0.53 年 0.84 年 3.76 年 3.84 年 676 年 8.34 年 


3-11 数据 可 视 化 


(5) HR 主体 分 析 

对 于 HR 的 主体 分 析 主 要 有 聚 类 型 、 关 联 型 和 确认 型 。 比 如 ， 聚 类 型 ， 哪 一 
类 招聘 人 才 来 源 进 入 企业 后 绩效 更 好 ? 关联 型 : 哪个 人 群 在 哪个 阶段 会 遭遇 
到 发 展 瓶颈 ? 确认 型 : 新 员工 入 职 后 的 绩效 表现 是 否 能 够 验证 当初 的 招聘 面试 
成 绩 〈 图 3-12) ? 


哪 一 类 招聘 人 才 来 源 进入 
企业 后 绩效 更 好 ? 


新 员工 入 职 后 的 绩效 


表现 哪个 人 群 在 哪个 阶段 会 
是 否 能 验证 当初 的 招聘 面试 成 绩 ? 遭遇 发 展 瓶 颈 ? 


3-12 ”数据 可 视 化 
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总 体 上 而 言 ， 大 数据 预测 分 为 三 级 。 

大 数据 预测 技术 ， 打 个 比方 ， 就 像 医院 的 化 验 一 样 ， 你 是 做 血 常规 、 还 是 核 
磁 ， 呈 现 的 形式 不 一 样 ， 无 论 是 化 验 单 上 的 数字 反映 是 “+” 号 还 是 “-” 号 ， 指 
标 上 升 还 是 下 降 , 图 谱 正常 还 是 异常 , 但 是 目的 相同 , 就 是 找 出 “病根 ”“ 病 因 ”， 
对 症 下 药 ， 才 能 手 到 病 除 。 

第 一 层 : HRBP 就 相当 于 医生 ， 拿 到 大 数据 预测 报告 后 ， 结 合 自己 对 员工 掌 
握 的 实际 情况 ， 开 出 “处 方 ”。 

第 二 层 : 建立 员工 标签 体系 ， 分 为 官方 标签 (HR、 主 管 赋予 的 标签 、 获 得 
的 奖惩 ) 、 民 间 标 签 〈 互 评 ) 、 隐 形 标签 〈 大 数据 分 析 行 为 得 到 的 ) 。 大 数据 技 
术 与 标签 体系 结合 ， 直 接 给 HRBP 输出 建议 报告 (“ 处 方 ”) 。 

第 三 层 : 建立 神经 网 络 体系 ， 利 用 人 工 智 能 ， 在 合 规 合理 范围 内 ， 建 立 全 面 
人 才 数 据 分 析 模 型 以 及 决策 支持 系统 ， 直 接 开 出 “处 方 ”。 


人 力 资 源 大 数据 指标 体系 


数据 分 析 在 实际 应 用 中 的 一 大 挑战 是 如 何 收集 到 分 析 所 需 的 数据 。 这 个 问题 
本 质 上 是 如 何 把 数据 转化 为 有 效 的 信息 ， 最 终 转 化 为 智慧 。 造 成 这 个 问题 的 主要 
原因 是 75% 的 人 力 资源 部 门 在 实际 操作 中 并 没有 使 用 人 力 资 源 理论 提供 的 矩阵 ， 
没有 对 历史 数据 进行 收集 、 进 行规 范 的 定义 与 监控 。 没 有 这 些 基础 工作 的 完成 ， 
就 无 法 一 路 而 就 地 进行 数据 分 析 。 我 们 首先 从 人 力 资源 指标 体系 角度 界定 人 力 资 
源 数据 分 析 的 标准 。 


1. 人 才 管 理 指标 体系 


人 才 管 理 指标 体系 包含 人 员 结构 、 人 才 队 伍 建 设 、 队 伍 状 态 及 职能 类 别 等 。 

(1) 人 员 结构 指 标 体系 

人 员 结构 指标 体系 主要 包含 团队 总 人 数 、 正 式 员工 人 数 、 实 习 生 人 数 、 关 键 
人 才 人 数 、 人 员 齐 备 率 、 当 年 和 去 年 关键 人 才 人 数 、 占 比 、 离 职 率 年 度 趋势 统计 、 
当年 齐备 率 趋势 、 去 年 齐备 率 趋势 、 员 工 类 型 分 布 、 员 工学 历 分 布 、 关 键 人 才 分 
布 、 员 工 年 龄 分 布 等 ， 指 标 适 用 场景 及 公司 见 表 3-3。 
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表 3-3 ”人 力 资源 指标 体系 一 人 才 管理 之 人 员 结 构 
指标 适用 场景 公 式 
(月 初 在 职 总 人 数 + 月 末 在 职 
总 人 数 ) /2 
(月 初 在 职 正式 员工 数 + 月 末 


在 职 正式 员工 数 ) /2 
可 用 于 判断 目前 的 员工 队伍 人 数 (月 初 在 职 实习 生 人 数 十 月 来 


是 否 可 以 支撑 业 务 发 展 ， 正 式 员 | 。 让 职 实 习 下 大 答 放 
工 、 实 习 生 、 关 键 人 才 的 人 数 比 
关键 人 才 人 数 。 | 例 是 否 合理 UE 
未 在 职 关键 人 才 人 数 ) /2 


月 平均 在 职 关键 人 才 / 月 平均 
在 职 正式 员工 


当月 在 职 人 数 / 当月 HC 人 数 


当年 和 去 年 关键 人 | 1. 若 本 年 度 、 月 度 关键 人 才 离 职 
才 人 数 、 占 比 、 离 | 率 有 较 大 变动 (同比 和 环比 ) ， 
职 率 年 度 趋势 统计 | 需要 分 析出 现 变动 的 原因 


关键 人 才 占 比 


2 若 本 年 度 、 月 度 离职 率 和 去 年 
ee 同期 的 趋势 相 比 有 较 大 变动 ， 需 
要 分 析出 现 变动 的 原因 


月 度 实习 生 和 正式 在 职员 工 所 占 
比例 


各 学 历 层次 员工 的 占 比 ， 反 映 目 统计 〈 例 如， 月 硕士 员工 人 数 


-= (月 初 硕 十 在 职员 工人 数 + 
前 公司 内 部 员工 的 教育 状况 。 | 月 未 硕士 在 职员 工人 数 ) /2) 


统计 
统计 
统计 


关键 人 才 分 布 “| 界定 关键 人 才 根据 关键 人 才 界 定 进行 统计 


员工 年 龄 分 布 “| 在 职员 工 的 年 龄 分 布 状 况 统计 统计 
员工 平均 年 龄 “| 不同 维度 下 的 在 职员 工 平 均 年 龄 
(组 织 /部 门 /层级 )| 状况 a 
员工 性 别 分 布 时 
(组 织 /部 门 / 层 级 )| 下 由 维度 下 的 在 职员 工 性 别 分 布 统计 
员工 最 高 学 历 分 布 | 不 同 维度 下 的 在 职员 工 最 高 学 历 
(组 织 /部 门 /层级 )| 分 布 状况 
员工 平均 教育 年 限 | 不 同 维度 下 的 在 职员 工 平均 教育 
(组 织 /部 门 /层级 )| 年 限时 长 

员工 平均 司 龄 本 二 司 员 
(组织 /部 门 /层级 )| 不 同 维度 下 的 在 职员 工 平 均 司 龄 了 司 龄 /员工 人 数 


员工 司 龄 分 布 “| 用 于 判断 目前 员工 队伍 的 稳定 性 | 统计 | 


统计 


二 员工 教育 年 限 /了 员工 人 数 
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(2) 人 才 队 伍 建设 

人 才 队 伍 建设 指标 体系 主要 是 关键 岗位 人 才 储 备 完整 率 、 关 键 岗位 后 备 人 员 
绩效 分 布 、 关 键 岗 位 后 备 人 员 年 龄 /性别 /最 高 学 历 / 司 龄 分 布 、 劳 动 合同 续签 率 、 
无 固定 期 限 合 同人 数 等 方面 ， 具 体 指标 适用 场景 及 公式 ， 详 见 表 3-4。 


表 3-4 ”人 力 资 源 指标 体系 一 一 人 才 管 理 之 人 才 队 伍 
指标 适用 场景 公 式 
1. 用 于 判断 目前 企业 关键 岗位 人 员 | 有 后 备 人 员 的 关键 岗 
关键 岗位 人 才 储备 完整 率 | 供给 是 否 具有 连续 性 ， 当 关键 岗位 | 位 数 /公司 所 有 关键 
在 职 人 员 发 生 高 职 或 转岗 时 能 否 保 | 岗位 数 
关键 岗位 后 备 人 员 年 龄 /性 | 证 新 人 员 的 高 质量 及 时 到 位 
别 /最 高 学 历 / 司 龄 分 布 |2. 用 于 判断 目前 关键 岗位 后 备 人 员 
关键 岗位 后 备 人 员 绩 效 分 布 | 的 个 人 素质 是 否 满足 要 求 


六 (合同 到 期 时 间 点 - 


90 天 内 合同 到 期 人 数 a 入 | 当前 时 间 点 三 90 天 ) 
根据 90 天 内 合同 到 期 人 数 和 以 往 的 人 数 统计 


的 合同 续签 率 来 判断 未 来 短期 内 可 | 人 

合同 到 期 后 还 择 续 答 

劳动 合同 续签 率 | 能 出 现 的 人 才 流失 风险 ， 为 招聘 工 | 的 员工 人 数 /合同 到 
作 做 好 准备 期 的 员工 总 人 数 


无 回 定期 限 合同 人 数 


(3) 队伍 状态 

队伍 状况 可 以 从 婚姻 状况 、 健 康 指数 、 特 长 、 兴 趣 爱好 、 星 座 、 地 区 分 布 、 
个 人 状态 指数 、 职 位 状态 指数 等 角度 建立 指标 体系 。 

(4) 职能 类 别 

职能 类 别 指标 体系 可 以 根据 公司 性 质 及 公司 职位 管理 体系 进行 设计 。 一 般 情 
况 下 ， 互 联网 公司 的 职位 管理 体系 包含 管理 序列 、 专 业 序 列 、 市 场 营销 序列 、 服 
务 支持 、 岗 位 序列 员工 分 布 、 关 键 人 才 人 数 分布 、 各 序列 关键 人 才 分 布 等 ， 指 标 
适用 场景 及 公式 详 见 表 3-5。 

表 3-5 ”人 力 资源 指标 体系 一 一 人 才 管 理 之 职能 类 别 


指 标 指标 适用 场景 公 式 
管理 序列 基础 指标 [的 岗位 序列 分 布 状况 (管理 类 ) 
专业 序列 基础 指标 员工 的 岗位 序列 分 布 状况 (研发 类 ) 
职能 本 员工 的 岗位 序列 分 布 状 况 ( 市 场 / 
类 别 市 场 销售 序列 基础 指标 销售 类 ) 
服务 支持 基础 指标 员工 的 岗位 序列 分 布 状况 (服务 


支持 类 ) 
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指 标 指标 适用 场景 公 ， 起 
RE 世 该 指标 可 用 来 判断 企业 员工 | =。 晴 
岗位 序列 员工 分 布 在 不 同 职能 模块 的 分 布 结构 员工 的 岗位 序列 分 布 状况 


一 一 | 该 指标 可 用 来 判断 企业 中 的 | 《月初 研 发 序列 让 在 职 关键 大寺 
pessoa 关键 人 才 在 不 同 岗位 序列 中 | 人 数 + 月 未 研发 序列 中 在 职 关键 


的 分 布 结构 人 才 人 数 ) /2 


各 岗位 序列 中 关键 人 ject dhe (研发 序列 月 平均 在 职 关 键 人 才 
才 的 上 比 (组 织 /部 门 )| 必 训 人 数 )/( 研 发 序 列 月 平均 在 职 人 数 ) 


2. 人 力 资源 运营 管理 指标 体系 


人 力 资 源 运 营 管理 指标 体系 主要 包含 招聘 、 培 训 、 绩 效 、 和 薪酬、 离职 等 指标 。 
(1) 人 力 资源 运营 管理 指标 体系 一 一 招聘 
从 招聘 角度 而 言 ， 人 力 资源 运营 指标 体系 比较 饱满 ， 包 含 职 位 发 布 、 招 聘 类 
型 、 招 聘 渠 道 、 关 键 岗 位 平均 空 缺 、 简 历 总 量 、 招 聘 渠 道 价值 指数 ， 内 推 相 
关 指 标 , 简历 筛选 相关 指标 , 以 及 招聘 有 效 性 等 丰富 的 指标 体系 , 详 见 表 3-6 一 表 
3-10。 
表 3-6 RE (C1) 


em 
Pr 0 

该 指标 反 胸 了 菜 惨 时 辣 册 实习 | 实习 生 、 正 式 员工 、 劳 男人 员 的 
生 / 员工 /劳务 的 招聘 数量 分 布 | 招聘 数量 比例 分 布 

该 指标 用 于 分 析 各 个 招聘 渠道 pt 
招聘 渠道 简历 数 | 的 简历 来 源 数 量 ， 从 而 判定 各 We 
， 个 渠道 的 有 效 性 程度 

关键 同位 平均 空 起 全 | 二 (当前 时 间 - 关 键 疯 位 空 全 发 


时 间 反映 关键 岗位 补充 周期 的 指标 | 布 时 间 ) / 关键 岗位 平均 空缺 数 


招聘 类 型 分 布 


该 指标 展示 了 某 段 时 间 内 投递 
的 简历 总 量 ， 可 在 一 定 程度 上 | 所 有 投递 简历 的 数量 统计 
反映 公司 在 行业 内 的 竞争 力 


招聘 渠道 价值 指数 | 渠道 分 析 指 数 


招聘 渠道 价值 指数 = 从 该 渠道 招 
聘 的 人 员 数 / 该 渠道 的 招聘 成 本 
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表 3.7 人 力 资源 运营 指标 体系 一 招聘 (2 ) 
指 标 指标 适用 场景 公 式 
内 推 包 数量 招聘 期 间 由 员工 内 推 的 简历 总 数量 
内 推 招聘 占 比 内 推 莘 历 7 总 简历 数 
招聘 期 间 内 扒 成 功 人 数 以 及 内 推 入 
终于 3 
内 各 要 二 录 用 估 娄 种 比 守 数 占 所 有 招聘 人 数 的 比率 
两 推 最 终了 录用 大 员 的 层级 内 推 最 终 录用 人 员 的 级 别 分 布 、 岗 
分 布 内 推 的 有 效 性 分 析 | 位 分 布 情况 统计 分 析 
= - 积极 参与 内 推 的 员工 数量 统计 ， 认 
内 推 员工 的 数量 统计 和 分 布 Ra 
两 推 员工 与 被 内 推 录 用 人 


员 的 关系 分 析 亲戚 、 前 同事 / 同学、 朋友 等 


表 3-8 ”人 力 资源 运营 指标 体系 一 一 招聘 ( 3 ) 


指 标 指标 适用 场景 
该 指标 表明 有 多 少 简历 未 
初 得 简历 流入 至 人 才 库 | 经 笔试 和 面试 直接 进入 人 


职位 投递 简历 的 质量 


人 才 库 简历 重新 推荐 回 | 该 指标 表明 人 才 库 中 简历 | 比率 一 期 间 内 人 才 库 简 历 重新 扒 
pe stent ti et ti 荐 回 候选 人 库 的 数量 /期 间 内 人 
才 库 的 平均 简历 数量 


表 3-9 ”人 力 资源 运营 指标 体系 一 一 招聘 (4 ) 
模块 指 标 指标 适用 场景 


简历 初 筛 通过 率 


初 得 简历 流入 至 人 才 库 的 数量 比 


简历 初 利通 过 率 = 拟 进 行 面试 简历 总 数 / 系 
统 内 简历 总 数 
进行 第 一 轮 面试 的 总 人 数 
一 面 通过 率 = 通过 一 面 的 人 数 /参加 一 面 的 
总 人 数 


招聘 的 有 效 性 分 析 进行 第 二 轮 面试 的 总 人 数 
二 面 通过 率 = 通过 二 面 的 人 数 /参加 二 面 的 
总 人 数 
职位 平均 招聘 时 长 招聘 周期 = 入 职 日 期 -简历 发 布 日 期 
录用 率 = 拟 录 用 人 数 /参加 面试 的 总 人 数 
招聘 完成 率 招聘 完成 率 = 实际 入 职 人 数 /计划 招聘 人 数 
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表 3-10 ”人 力 资源 运营 指标 体系 一 一 招聘 (5) 
指 标 指标 适用 场景 从 - 起 
offer 拒绝 率 = 实际 接受 offer 人 数 / 
拟 录用 人 数 
offer 拒绝 原因 分 析 基础 指标 = 


报到 率 基础 指标 je 
招聘 完成 率 = 实 际 入 职 人 数 /计划 招 
聘 人 数 

各 部 门 招聘 完成 情况 基础 指标 各 部 门 的 招聘 完成 率 统计 分 析 


本 访 指 标 可 以 在 一 定 程度 | 试用 期 通过 率 - 新 入 职员 工 试用 期 
试用 期 通过 率 。 | 上 检验 招聘 工作 的 质量 | 通过 人 数 / 入 职 总 人 数 
。 | 该 指标 可 以 在 一 定 程度 | 试用 期 离职 率 = 新 入 职员 工 试用 期 
试用 期 离职 率 。 | 上 检验 招聘 工作 的 质量 | 离职 总 数 / 入 职员 工 总 人 数 

(2) 人 力 资源 运营 管理 指标 体系 一 培训 

培训 指标 体系 主要 包含 培训 需求 分 布 、 新 员工 入 职 培训 完成 率 、 评 价 学 习 时 


长 、 员 工 对 培训 的 满意 度 、 讲 师 队伍 结构 、 年 度 培 训 费 用 、 培 训 费 用 占 薪资 比例 
等 ， 其 指标 适用 场景 及 公式 详 见 表 3-11。 


offer 拒绝 率 基础 指标 


招聘 完成 率 基础 指标 


表 3-11 ”人力 资源 运营 指标 体系 一 一 培训 


指标 适用 场景 
该 指标 反映 了 员工 培训 的 不 同 
培训 需求 分 布 。 “| 需求 点 ， 培 训 需 求 分 布 指标 可 
以 指导 之 后 的 培训 内 容 安排 
一 | 该 指标 反映 了 新 员工 对 入 职 培 | 完成 入 职 培训 的 新 员工 人 
新 员工 入 职 培 训 的 完成 素 训 的 参与 度 数 / 入 职员 工 总 数 
人 | 员工 在 度 学 堂上 的 学 习 
平均 学 习 时 长 该 指标 反映 了 员工 在 度 学 堂 中 | 时 间 总 和 /在 度 学 堂上 
学 习 的 平均 时 间 
学 习 的 总 人 数 
ee 识 此 标 反映 了 员工 对 培训 内 容 本 
员 0 中 的 日 
员工 对 培训 的 满意 度 pe pines 问卷 调查 
- 该 指标 反映 了 内 部 讲师 队伍 的 
内 部 讲师 队伍 结构 人 统计 
该 指标 反映 了 外 聘 讲 师 队伍 的 - 
年 度 外 请 讲师 队伍 结构 yn 统计 
- 该 指标 反映 了 年 初 公司 对 培训 - 
年 度 培训 费用 预算 ee 统计 
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指 标 指标 适用 场景 
年 度 内 公司 为 员工 培训 而 花 
费 的 总 支出 


该 指标 反映 了 公司 为 每 个 员 | 年 度 培训 费用 总 额 /年 度 
工 花费 的 平均 培训 费用 平均 在 职 人 数 


该 指标 反映 了 年 度 培训 费用 | 年 度 培训 总 费用 / 年度 薪 
占 年 度 薪酬 总 额 的 比例 酬 总 额 


该 指标 反映 了 年 度 内 员工 所 | 年 度 内 员工 参加 培训 的 总 
接受 的 平均 培训 次 数 次 数 /年 度 平均 在 职 人 数 
(3) 人 力 资源 运营 管理 指标 体系 一 一 绩效 
绩效 指标 主要 包含 低 绩 效 人 数 占 比 、 绩优 股 和 人数 占 比 、 转岗 员工 的 绩效 分 布 、 
离职 员工 的 绩效 分 布 、 绩 效 申 诉 比率 等 ， 其 适用 场景 及 公式 详 见 表 3-12。 


培训 费用 总 额 


人 均 培 训 费 用 


培训 费用 占 薪 资 的 比率 


人 均 培 训 次 数 


表 3-12 人力 资源 运营 指标 体系 一 一 绩效 
指标 适用 场景 公 式 

该 指标 反映 了 目前 企业 中 低 绩效 | 连续 年 度 绩效 4 或 一 次 
员工 的 人 数 占 比 5 的 员工 人 数 /总 人 数 


该 指标 反映 了 目前 企业 中 绩效 优 | 连续 2 年 年 度 绩效 1、 
异 的 员工 人 数 占 比 2 的 员工 人 数 /总 人 数 


该 指标 反映 了 年 度 转 岗 员 工 的 绩 
效 在 各 个 等 级 上 的 人 数 分 布 情况 


该 指标 反映 了 年 度 离职 员工 的 绩 
效 在 各 个 等 级 上 的 人 数 分 布 情况 


低 绩效 人 数 占 比 


绩优 股 人 数 占 比 


转岗 员工 的 绩效 分 布 


离职 员工 的 绩效 分 布 


期 间 内 人 员 绩效 申诉 
总 数 / 期间 内 参加 绩效 
考评 的 员工 总 数 


反映 绩效 管理 制度 和 绩效 文化 执 


Ss 行 得 是 否 完善 的 指标 


(4) 人 力 资源 运营 管理 指标 体系 一 一 薪酬 

薪酬 指标 主要 包含 地 区 及 行业 薪酬 水 平 、 消 费 者 价格 指数 趋势 、 不 同 岗位 序 
列 平均 薪酬 水 平 、 薪 酬 总 额 、 福 利 总 额 、 月 人 均 薪酬 增长 率 等 ， 其 适用 场景 及 公 
式 详 见 表 3-13。 
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表 3-13 ”人 力 资源 运营 指标 体系 薪酬 

指 标 指标 适用 场景 公式 
用 于 分 析 企业 所 在 地 区 的 ee 
总 体 薪 一 水平 光电 报信 


地 区 薪酬 水 了 


行业 薪酬 水 了 用 于 分 析 行业 的 薪酬 状况 调研 报告 

消费 者 价格 指数 趋势 和 行 | 该 指标 用 来 在 宏观 层面 指 分 析 报告 

业 薪 酬 水 平 趋势 的 相关 性 | ” 导 公 司 的 薪酬 战略 

不 同 岗位 序列 / 层级 员工 | 用 于 描述 公司 目前 内 部 的 | 某 序列 员工 薪酬 总 额 / 该 序列 员 
平均 薪酬 水 平 薪酬 水 平 工 总 人 数 


年 度 薪 酬 预算 基础 指标 


统计 
加 本 年 内 员工 的 薪酬 总 额 ( 基 薪 十 

St 用 于 员工 关怀 和 员工 福利 本 
福利 总 额 的 支出 总 客 本 年 度 内 用 于 员工 福利 的 支出 总 额 


福利 的 成 。 | 基 砷 指标 | 统计 | 


该 指标 反映 了 公司 内 部 月 
度 人 均 薪酬 支出 月 薪酬 总 额 /员工 总 人 数 


“| 该 指标 反映 了 月 度 人 艾 靳 | (本 月 信 均 某 丽 -上 月 信 均 新 
为 人 的 蕴 表 测 从 宗 副 支 出 的 增长 幅度 酬 ) /上 月 人 均 薪 本 

一 | 反映 了 月 度 总 划一 | 《本 期 靳 闻 总 额 - 上 期 薪 闻 六 
靳 弄 总 烙 痢 长 率 支出 的 增长 幅度 额 ) / 上 期 薪酬 总 额 


ee (本 期 关键 人 才 薪酬 总 额 - 上 期 
关键 人 才 某 酬 增长 率 “ 环 | 关键 人 才 的 月 薪酬 总 额 增 | 4 人才 新 | 冯 额 》/ 上 期 关键 


比 、 同 比 ) 长 幅度 人 才 薪 酬 总 额 


(5) 人 力 资源 运营 管理 指标 体系 一 一 离职 

离职 指标 主要 包含 年 度 离职 率 、 月 度 离职 率 员工、 关键 人 才 、 专 业 序列 人 
才 等 ) 、 最 近 离职 关键 人 才 、 月 离职 人 员 特 性 、 离 职员 工 绩效 分 布 等 ， 其 适用 场 
景 及 公式 详 见 表 3-14。 


表 3-14 人 力 资源 运营 指标 体系 一 一 离职 

指 标 指标 适用 场景 公式 
当月 之 前 12 个 月 的 离职 人 | 当月 之 前 12 个 月 的 离职 人 数 和 
年 度 离职 率 数 占 当月 之 前 12 个 月 的 平 | / 当月 之 前 12 个 月 的 月 平均 人 

均 人 数 的 比值 数 ) 
月 度 离职 率 (员工 / 关 | 月 度 离职 人 数 占 当 月 平均 在 | 月 度 离职 总 人 数 /月 初 在 职 人 
键 人 才 /主动 /被 动 ) 职 人 数 的 比值 数 + 月 末 在 职 人 数 ) /2 

当年 1 月 至 本 月 离职 的 关键 | 离职 日 期 在 当年 1 月 至 本 月 关 

最 近 离 职 关键 人 才 数 人 才 明 细 键 人 才 
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续 表 


指 标 指标 适用 场景 公式 
当月 离职 的 实习 生 和 正式 员 | 月 离职 正式 员工 占 比 = 月 离职 
工 占 比 正式 员工 / 月 离职 总 人 数 
举例 :绩效 为 3 分 的 离职 员工 
离职 员工 绩效 分 布 “| 月 度 离职 员工 的 绩效 分 布 状况 | 占 比 = 月 离职 员工 中 绩效 为 3 
分 的 人 数 和 / 月 离职 员工 总 人 数 
期 间 内 、 各 司 龄 段 的 离职 人 | 司 龄 离职 率 = 期 间 内 、 该 司 龄 


月 离职 人 员 特 性 分 布 


司 龄 离职 率 ( 季 ) (环比 )| 数 与 所 对 应 的 司 龄 段 的 在 职 | 段 的 离职 人 数 / 该 期 间 内 ， 该 
人 数 的 比值 司 龄 段 每 个 月 的 平均 在 职 人 数 
数 占 所 有 离职 人 数 的 比重 
人 数 和 
当月 离职 原因 《同比 ) 
离职 补偿 金 


3. 人 力 资源 组 织 效能 指标 体系 


司 龄 离职 占 比 ( 季 )( 环 比 ) 


人 力 资 源 组 织 效能 指标 体系 主要 包含 成 本 和 收入 , 其 适应 场景 及 公式 详 见 表 3-15。 


表 3-15 人力 资源 组 织 效能 指标 体系 


模块 | 指 标 指标 适用 场景 


该 指标 反映 了 企业 为 员工 工作 和 生活 的 | (薪酬 总 额 + 五 险 一 金 + 
支出 总 额 。 员工 关怀 支出 ) 


人 均 人 工 成 本 可 以 分 析 企 业 间 人 工 成 本 

的 结构 差异 ， 对 各 自 竞争 潜力 和 用 工效 | 年 度 人 工 成 本 总 额 /年 度 平 
率 产 生 的 影响 ， 为 调整 人 工 成 本 使 用 方 | 均 在 职 人 数 

向 和 提高 使 用 效益 提供 参照 。 

人 均 人 工 成 本 增长 率 主要 反映 人 均 人 工 
成 本 的 变化 趋势 ， 一 般 来 讲 ， 人 均 人 工 
成 本 总 是 处 于 增长 的 状态 ， 但 增长 的 速 
度 对 企业 的 竞争 潜力 、 员 工 预 期 等 方面 
会 产生 影响 。 

人 工 成 本 含量 指 人 工 费 用 在 总 费用 中 的 
百分比 ， 反 映 劳动 效率 状况 ， 人 工 成 本 | 人 工 成 本 /总 成 本 X100% 
含量 在 不 同行 业 差别 非常 大 ， 制 造 业 一 | 总 成 本 即 成 本 费用 总 额 ， 包 
人 工 成 本 含量 | 般 会 在 10% ~ 20%， 但 软件 行业 可 能 会 | 括 产品 销售 成 本 、 产 品 销售 
高 达 70%; 人 工 成 本 含量 与 劳动 分 配 率 | 费用 、 管 理 费用 和 财务 费用 
可 以 评价 本 企业 人 工 成 本 投入 在 行业 内 | 之 和 

的 水 平 。 


人 均 人 工 成 本 


〈 本 年 度 人 均 成 本 - 上 年 度 
人 均 成 本 ) / 上 年 度 人 均 成 本 


人 均 人 工 成 本 
成 本 | 增长 率 
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指 标 指标 适用 场景 公式 

人 力 成 本 预算 | 反映 人 力 成 本 预算 的 发 进度， 监控 预 | 全 扣 
执行 率 。 | 算 执行 情况 。 ee 
年 度 总 收入 /年 度 内 平均 在 
职 人 数 

[营业 收入 - 《 音 业 支出 “新 
一 费用 - 福利 费用 ) ] / ( 某 
一 费用 + 福利 费用 ) 


二 er 年 度 总 的 净利 润 / 年 度 内 平 
人 均 净 利润 | 反映 人 均 贡 献 净利 润 的 能 力 。 均 在 职 人 数 


人 力 资源 比率 | 反映 人 力 资 源 职能 服务 覆盖 的 宽度 情况 。| 人 力 资源 序列 员工 数 /人数 


下 5 人 力 资源 大 数据 分 析 的 组 织 环境 


人 均 收入 基础 指标 。 


人 力 资本 回 | 反映 投向 人 力 资本 薪酬 福利 方面 的 每 一 
报 率 元 钱 所 创造 出 的 利润 情况 。 


搭建 数据 分 析 的 组 织 环境 首先 要 明确 数据 分 析 的 三 个 不 同 层次 的 价值 目标 。 
一 是 通过 数据 分 析 解 决 实际 问题 ， 比 较 员工 流失 问题 、 高 潜 人 才 挖 所 等 。 二 是 组 
建 分 析 部 门 , 越 来 越 多 的 公司 高 层 和 人 力 资源 主管 认为 有 必要 建立 数据 分 析 团 队 。 
三 是 使 数据 驱动 成 为 一 种 企业 文化 。 


1. 高 层 及 相关 部 门 的 支持 


任何 一 项 重要 的 变革 , 都 需要 来 自 公司 高 层 的 支持 。 公 司 中 充满 了 权力 游戏 。 
你 需要 同事 、 领 导 、 直 至 公司 高 层 的 支持 来 完成 这 一 项 事业 。 如 果 公 司 高 层 达 成 
了 共识 将 十 分 有 利于 团队 的 组 建 和 获取 必要 的 资源 。 同 时 ， 有 的 问题 根源 并 不 在 
人 力 资源 部 门 ， 当 这 种 情况 发 生 时 就 不 单单 是 一 个 人 力 资源 项 目 ， 因 此 获得 更 大 
范围 的 支持 就 必 不 可 少 。 

良好 的 关系 建立 在 信任 、 共 同 的 利益 与 目标 和 恰当 的 人 际 关 系 技巧 上 。 那么 ， 
如 何 才能 说 服 公司 高 层 在 人 力 资 源 分 析 上 进行 投入 ? 如 果 想 要 得 到 公司 高 层 的 关 
注 和 支持 ， 首 先 应 该 明白 高 层 关 心 的 问题 是 什么 。 人 力 资源 分 析 是 一 种 工具 ， 可 
以 帮助 发 现 改进 公司 运营 和 财务 的 方法 。 在 21 世纪 激烈 的 全 球 竞争 中 ，CEO 们 
要 面 对 时 时 变化 的 环境 。 要 成 功 地 得 到 高 层 的 支持 ， 你 需要 找到 一 条 通过 这 个 时 
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时 变化 的 迷宫 的 方法 。 曾 有 CEO 说 过 : 公司 中 他 最 关心 的 问题 是 如 何 提高 公司 
的 收入 。 这 是 一 种 很 有 代表 性 的 说 法 。 即 使 高 层 关 心 的 问题 显而易见 ， 最 好 在 提 
出 要 求 之 前 做 好 充分 的 研究 准备 。 关 注 公 司 高 层 强调 的 要 求 和 计划 ， 观 察 公司 高 
层 在 什么 事务 上 花费 时 间 和 精力 。 


2. 组 建 分 析 团 队 


分 析 团 队 要 能 够 适应 公司 的 文化 与 组 织 架构 。 分 析 团队 的 成 员 最 好 既 能 够 完 
成 数据 分 析 ， 又 熟悉 公司 的 业务 。 通 常 来 说 ， 这 样 的 人 才 十 分 稀缺 。 

数据 分 析 团 队 会 拓展 人 力 资源 部 门 的 视野 ， 比 如 ， 人 力 资源 的 视野 和 目标 ; 
人 力 资 源 标准 定义 ; 报告 设计 ; 数据 架构 ;数据 工具 和 应 用 ; 项 目 设计 ; 数据 收 
集 、 分 析 与 测试 ， 报 告 ， 执 行 与 监控 。 

组 建 数据 分 析 团 队 的 十 个 步骤 : 

(1) 设立 短期 和 长 期 目标 。 

(2) 制定 标准 和 规范 。 让 部 门 内 外 都 清楚 所 要 使 用 的 专业 术语 。 

(3) 优化 报告 的 内 容 和 设计 。 

(4) 根据 所 需 的 数据 完成 数据 架构 。 

(5) 把 软件 和 服务 的 购买 加 入 预算 并 提交 给 公司 高 层 。 

(6) 公司 高 层 对 以 上 事项 达成 共识 。 

(7) 团队 开始 运作 ， 完 成 工作 流程 并 不 断 优化 。 

(8) 完成 分 析 结 果 并 进行 测试 。 

(9) 解决 意料 之 外 的 问题 。 

(10) 为 公司 高 层 提供 分 析 报 告 和 决策 支持 。 


3. 发 展 数据 驱动 的 公司 文化 


改变 公司 的 文化 是 一 项 巨大 的 挑战 和 艰巨 的 工作 。 需 要 大 量 的 时 间 、 精 力 和 
资金 的 投入 ， 而 且 是 一 个 长 期 的 过 程 。 
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oN 
第 二 区 


人 力 资 源 大 数据 应 用 场景 


人 力 资 源 规划 、 招 聘 甄 选 、 员 工 培训 、 绩 效 管理 、 薪 酬 管理 及 员工 关系 是 人 
力 资源 管理 的 主要 模块 ， 大 数据 在 这 些 模块 都 可 以 得 到 充分 运用 ， 并 由 此 提升 组 
织 效能 。 本 节 主 要 是 从 “ 选 、 育 、 用 、 留 ”四 个 环节 的 主要 应 用 场景 展开 论述 。 


国 网 应 用 场景 之 一 一 选 ( 招聘 场景 ) 


1. 人 才 供 需 规划 预测 


现在 是 互联 网 时 代 向 人 工 智能 时 代 转 型 的 时 期 ， 人 才 的 竞争 更 加 激烈 ， 组 织 
的 形态 更 加 多 样 化 ， 如 何 吸引 与 获取 优秀 人 才 至 关 重 要 ， 这 更 需要 做 好 人 力 资源 
规划 。 若 财 年 按照 自然 年 为 单位 , 通常 每 年 Q4 开始 规划 明年 人 才 供 需 (Headcount) 
规划 ， 每 个 季度 review 调整 计划 ， 以 匹配 组 织 、 业 务 的 变化 。 

人 才 供 需 规划 通常 可 采取 的 方式 有 趋势 预测 法 、 成 本 控制 法 等 。 

趋势 预测 法 是 根据 历年 的 招聘 情况 〈 招 聘 总 量 、 地 域 分 布 、 业 务 单元 分 布 、 
层级 分 布 、 组 织 发 展 形态 、 晋 升 速度 、 管 理 幅度 、 离 职 率 等 ) 进行 综合 分 析 给 出 一 
定 比 例 增长 幅度 的 线性 预测 , 体现 的 是 企业 用 工 总 量 是 平稳 的 , 还 是 爆发 式 发 展 的 。 

成 本 控制 法 是 根据 企业 人 工 成 本 总 预算 倒 推 招聘 数量 ， 人 工 成 本 包含 工资 、 五 
险 一 金 、 商 业 保险 、 奖 金 、 调 薪 、 福 利 费 用 、 培 训 费 用 等 ， 从 总 预算 分 摊 到 各 事业 
部 各 个 部 门 预算 ， 再 倒 推 到 各 个 部 门 、 各 个 层级 能 招 多 少 人 ， 从 而 预 估 出 总 招聘 量 。 

当然 这 两 种 方式 各 有 利弊 ， 也 可 以 结合 使 用 〈 即 双 控 模 式 ， 既 控制 人 头 ， 
又 控制 成 本 ) 。 目 前 更 精准 的 方式 是 通过 大 数据 挖掘 技术 ， 实 时 分 析 ， 月 度 
review， 季 度 调 整 。 

利用 大 数据 挖掘 技术 ， 通 过 组 织 结构 、 人 员 配 比 、 人 力 成 本 、 绩 效 、 异 动 等 
相关 内 部 信息 的 加 工 处 理 与 建 模 分 析 , 同时 结合 外 部 社交 数据 的 综合 多 维度 分 析 ， 
模拟 仿真 可 能 发 生 的 各 种 变化 情景 ， 对 其 合理 性 与 风险 进行 评估 ， 给 出 人 才 供需 
分 析 报告 ， 方 便 企业 管理 层 决策 。 
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比如 ， 猫 聘 网 在 2800 万 人 才 大 数据 的 基础 上 ， 提 供 了 十 三 个 行业 以 及 更 多 
的 细 分 行业 《例如 互联 网 金融 ) 的 行业 人 才 分 析 报 告 ， 其 中 包括 人 才 画 像 、 职 能 
分 布 、 地 域 分 布 、 流 入 流出 、 薪 资 分 布 等 非常 有 价值 的 数据 。 


2. 求职 信息 与 岗位 信息 自动 匹配 、 智 能 评估 、 双 向 推荐 


目前 市 场 上 招聘 平台 众多 ， 但 多 数 平 台 求职 者 的 个 人 信息 与 用 人 单位 的 岗位 
信息 还 停留 在 手工 匹配 的 层面 ， 即 求职 者 在 招聘 平台 的 搜索 框 里 输入 相关 的 岗位 
关键 词 来 查询 是 否 有 适合 自己 的 岗位 信息 ， 用 人 单位 也 是 通过 手工 搜索 方式 查找 
合适 的 求职 者 信息 。 由 于 是 模糊 搜索 ， 无 论 是 求职 者 还 是 用 人 单位 ， 都 很 难 从 成 
千 上 万 条 信息 里 快速 找到 自己 所 求 。 

通过 大 数据 算法 ， 对 以 下 指标 实现 量化 ， 然 后 对 指标 进行 综合 加 权 匹 配 ， 训 
练 、 调 优 ， 既 可 实现 求职 信息 与 岗位 信息 的 智能 评估 与 自动 匹配 ， 从 而 向 用 人 单 
位 自动 筛选 精确 的 求职 者 简历 ， 提 升 招聘 效率 与 产 出 ， 也 可 以 向 求职 者 推荐 合适 
的 岗位 信息 ， 达 到 用 人 单位 主动 吸引 人 才 的 目的 ， 实 现 双赢 。 

关键 指标 举例 ,比如 求职 者 的 个 人 信息 (学 校 、 学历 、 专业、 技能、 工作 地 点 、 
工作 经 验 、 能 力 、 意 愿 等 ) 、 用 人 单位 岗位 信息 〈 学 校 要 求 : 985 还 是 211; 学 
历 要 求 : 本 科 还 是 硕士 ， 专 业 要 求 : 计算 机 还 是 人 力 资源 相关 :， 从业 要 求 : 2 年 
还 是 5 年 以 上 经 验 等 ， 技 能 要 求 : Java、Python……; 地 点 要 求 : 北上 还 是 广 深 ; 
能 力 要 求 : 沟通 协调 能 力 、 项 目 管理 能 力 、 领 导 力 等 ) ， 同 时 还 必须 提取 绩优 员 
工 的 特征 作为 标杆 。 

当然 ， 智 能 匹配 算法 要 有 自我 学 习 功 能 ， 根 据 输入 信息 变化 、 搜 索 历史 、 地 
域 热 度 、 人 才 贮 备 等 变化 , 可 以 自我 修正 指标 , 从 而 自动 匹配 更 加 智能 化 (图 3-13)。 


四 区 荐 A VS 


简历 分 析 人 岗 匹 配 简历 推荐 ”岗位 趋势 分 析 内 外 部 人 才 分 析 


智能 评估 、 2 | 1 


面试 环节 ， 语音 转 文字 语义 分 析 形成 标签 个 性 化 入 职 体验 


多 © [| O 食 


3-13 ”智能 匹配 
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3. 绩优 或 高 潜 人 才 画 像 自动 识别 候选 人 


通过 对 绩优 或 高 潜 员 工人 才 的 特征 提取 ， 可 以 得 到 不 同 序列 的 人 才 画 像 。 将 
候选 人 与 之 匹配 ， 得 到 匹配 指数 ， 从 而 协助 HR 快速 找到 最 优秀 的 人 才 。 


4. 招聘 漏斗 各 个 环节 的 运营 效率 提升 


大 数据 技术 在 招聘 渠道 、 招 聘 进展 (漏斗 分 析 ) 、 招 聘 来 源 〈 人 才 雷 达 地 图 ) 
等 方面 都 可 以 发 挥 很 大 作用 ， 实 现 多 〈 招 人 数量 多 ) 、 快 (时 间 短 ) 、 好 (人 才 
优秀 ) 、 省 〈 效 率 高 ) 的 目的 。 通 过 准确 的 甄选 评测 工具 、 正 确 的 操作 流程 、 合 
适 的 面试 官 、 适 当 的 技术 ， 将 最 优秀 人 才 招募 进来 〈 图 3-14) 。 


= 


wv 
Vv 
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5. 典型 应 用 案例 


猫 聘 目 前 有 超过 2800 万 注册 用 户 , 数 百 万 的 职位 信息 , 每 天 上 亿 的 消息 日 志 ， 
是 不 折 不 扣 的 人 才 大 数据 公司 。 通 过 分 析 和 挖掘 这 些 丰 富 的 数据 ， 猫 聘 可 以 做 很 
多 有 价值 的 事情 。 在 招聘 方面 , 猎 聘 通过 分 析 行 业 人 才 数 据 和 专项 职能 发 展 趋势 ， 
帮助 企业 更 好 地 制定 人 才 规 划 和 招聘 策略 , 也 能 够 帮助 个 人 进行 更 好 的 职业 规划 。 

企业 在 进行 招聘 时 ， 第 一 步 是 要 做 人 才 规 划 ， 需 要 了 解 行业 人 才情 况 。 猎 聘 
可 以 提供 各 个 行业 的 人 才 趋势 分 析 报 告 。 在 制定 了 人 才 规 划 之 后 ， 企 业 需 要 进行 
人 才 搜 寻 。 这 时 可 以 使 用 猎 聘 的 “机 器 伯乐 ”系统 自动 获得 相关 人 才 推 荐 , 节省 时 间 、 
提高 效率 。 同时 , 猎 聘 也 会 用 基于 大 数据 的 职位 推荐 系统 向 合适 的 候选 人 推荐 职位 。 
此 外 ， 还 可 以 通过 猎 聘 通道 的 职业 社交 网 络 ， 发 现 一 些 高 质量 的 被 动 求 职 者 。 

在 招聘 过 程 中 ， 猫 聘 在 大 数据 的 基础 上 运用 机 器 学 习 和 推荐 算法 ， 可 以 给 用 
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户 自动 推荐 合适 的 职位 。 在 企业 和 猎头 端 ， 用 类 似 的 技术 为 企业 自动 推荐 合适 的 
人 才 ， 提 高 了 招聘 效率 。 此 外 ， 在 “面试 快 / 入 职 快 ”猎头 众 包 服 务 中 ， 猎 聘 通 
过 数据 分 析 和 机 器 学 习 ， 可 以 根据 企业 需求 匹配 最 合适 的 猎头 来 提供 服务 。 


应 用 场景 之 一 一 用 ( 职业 发 展 、 敏 捷 绩效 场景 ) 


1. 人 才 画 像 ， 职 业 规划 


提取 高 绩效 、 高 潜力 人 才 的 显著 特征 ， 得 到 不 同 序列 的 人 才 画 像 : 将 候选 人 
与 之 匹配 ， 得 到 匹配 指数 ， 从 而 协助 HR 快速 找到 最 优秀 的 人 才 ; 也 可 以 通过 评 
估 人 的 适 岗 性 ， 把 合适 的 人 放 在 合适 的 位 置 上 ; 结合 学 习 地 图 ， 匹 配 学 习 课 程 。 

这 就 需要 平时 要 建立 用 户 标签 体系 ,通过 当前 员工 岗位 、 职 级 、 职 责 、 绩 效 、 
代码 产量 、 晋 升 速度 、 薪 资 涨幅 程度 、360 度 评估 、 技 能 水 平等 打上 标签 ， 与 员 
工 下 一 步 职业 规 划 的 岗位 所 需 的 能 力 标准 以 及 技能 要 求 进行 匹配 ， 形 成 岗位 匹配 
度 、 能 力 匹 配 度 、 技 能 匹配 度 等 员工 发 展 相关 标签 ， 同 时 结合 市 场 热点 岗位 分 析 ， 
综合 为 员工 提供 职业 发 展 评估 和 建议 (图 3-15) 。® 


图 3-15 不 同 序列 人 才 画 像 


2. 敏捷 绩效 场景 


绩效 管理 对 于 企业 来 讲 至 关 重 要 ， 是 整个 企业 价值 输出 的 导向 ， 传 统 的 每 年 
Q@ ”此 图 来 源 于 百分点 . 
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一 次 或 二 次 的 “批量 ”的 方式 已 经 过 时 ， 进 入 移动 互联 网 时 代 ，OKR、 人 单 合 一 、 
阿 米 巴 、 合 弄 制 等 开始 流行 。 许 多 公司 纷纷 开始 转向 敏捷 绩效 ， 放 弃 强 制 分 布 和 
末 位 淘汰 ， 员 工 与 主管 可 以 随时 随地 通过 移动 APP 修改 目标 、 反 馈 意见 ， 当 然 
也 可 以 征求 其 他 专家 或 项 目 经 理 的 反馈 意见 ， 而 且 绩 效 的 产 出 结果 不 与 晋升 、 调 
薪 直 接 挂钩 。 这 种 方式 极 大 地 加 强 了 平时 的 沟通 与 反馈 ， 随 时 调整 与 修正 目标 ， 
随时 辅导 与 激励 , 以 便 更 大 化 价值 的 产 出 。 也 帮助 员工 个 人 及 时 调整 个 人 发 展 路 径 、 
快速 成 长 。 当 然 有 些 东 西 不 可 量化 ， 比 如 激情 与 创新 动力 等 ， 这 就 需要 平时 多 关注 
与 收集 员工 的 工作 状况 、 代 码 生产 情况 、 行 为 表现 、 团 队 合作 情况 、 沟 通 交流 情 
况 、 内 外 部 与 情 监督 等 ， 利 用 大 数据 以 及 NLP 技术 建 模 ， 定 量 与 定性 综合 分 析 ， 
哪些 因素 维度 可 最 大 化 提高 员工 的 业绩 ， 从 而 达到 提升 组 织 效 能 的 目的 。 
Intel、Google 较 早 使 用 OKR， 埃 森 哲 、Adobe、 和 微软、 通用 电气 、IBM 等 
开始 推行 敏捷 绩效 。 比 如 通用 电气 的 PD@GE、 IBM 的 ACE、 德 勤 的 绩效 快照 等 。 


和 ”| 通用 电气 为 什么 要 用 这 款 APP 来 取代 绩效 评估 ? ” 


延伸 阅读 
为 了 更 好 应 对 急剧 变化 的 外 部 市 场 ， 配 合 伊 梅 尔 特 “ 回 归 制 


造 业 ” 的 战略 ， 同 时 顺应 移动 互联 网 技术 莽 勃 发 展 时 代 下 的 员工 特 
点 ，GE 终 于 放弃 了 使 用 三 十 多 年 并 引 以 为 豪 的 绩效 考核 “活力 曲 
线 ”， 推 出 了 一 套 以 一 个 APP 为 载体 的 全 新 绩效 管理 系统 。 这 个 APP 
名 为 PD@GE ( PD 意 指 Performance Development ) ， 在 这 个 移动 应 
用 程序 平台 上 ， 可 以 定义 近期 的 工作 目标 ， 使 经 理 和 员工 可 以 保持 
“持续 沟通 ” ( Continuous Dialog ) ， 回 顾 目标 的 完成 情况 是 否 符合 
预期 ， 促 进 员 工 的 绩效 持续 改进 。 

据 商 业 新 闻 网 站 Quartz 报 道 ， 在 《财富 》 美 国 500 强 中 排名 第 8 
的 通用 电气 公司 正在 取消 年 度 业 绩 评估 政策 ， 转 而 利用 应 用 软件 进 
行 工 作 反 馈 。 

以 前 ,通用 电气 的 经 理 们 每 年 与 下 属 进行 一 次 面谈 ， 给 他 们 的 
表现 打分 ， 并 淘汰 排 在 最 后 的 10%。 如 今 ， 许 多 公司 已 经 放弃 这 种 


@ 通用 电气 为 什么 要 用 这 款 APP 来 取代 绩效 评估 ? http://www.fortunechina.com/management/ 
c/2015-08/23/content 246015.htm 


第 三 章 ”人 力 资源 大 数据 分 析 及 应 用 场景 | 149 


评估 方式 ， 通 用 电气 人 力 资源 主管 苏 珊 。 皮 特 斯 对 Quartz 表 示 ， 这 
种 方式 “更 多 地 变 成 了 一 种 仪式 ， 而 不 是 推动 公司 前 进 的 举措 ”。 

通用 电气 的 经 理 们 现在 能 通过 一 款 叫 作 “PD@GE” ( 意 为 “在 
通用 电气 的 绩效 发 展 ”) 的 应 用 ， 更 频繁 地 得 到 员工 的 工作 反馈 。 
员工 会 得 到 一 份 具体 的 短期 工作 目标 清单 ， 经 理会 经 常 与 员工 讨论 
工作 进展 情况 。 员 工 还 可 以 随时 通过 该 应 用 征求 反馈 意见 。 

每 年 年 底 ， 经 理 们 依然 会 与 员工 谈话 。 不 过 他 们 那 时 会 更 多 地 
扮演 教练 的 角色 ， 指 导 员 工 如 何 最 好 地 完成 自己 的 目标 。 


El | 德勤 的 “绩效 智能 ”” 


延 伟 阅 读 | 
在 德勤 新 系统 的 早期 概念 验证 过 程 中 ， 德 勤 负责 某 大 区 域 的 


高 管 向 项 目 经 理 索要 数据 ， 用 于 骨干 员工 的 相关 激励 。 图 3-16 中 每 
个 小 点 代表 一 个 人 ， 决 策 者 可 以 点 击 任何 小 点 ， 查 阅 该 人 姓名 及 其 
“绩效 快照 ”的 细节 信息 。 

1. 组 长 告诉 我 们 什么 ? 

首先 团队 总 览 全 局 ， 这 张 图 显示 了 所 有 参与 者 ，Y 轴 的 标准 
是 组 长 所 谓 的 “我 总 是 希望 此 人 作为 我 的 组 员 ”，X 轴 的 标准 是 
“我 会 尽 可 能 多 给 该 组 员 奖 励 ” 


5.0 


人 数 1014 
4.0 
3 
当 . 
J 
2.0 IEVEL6 
本 
a 
| :EE 
了 个 2.0 3.0 4.0 


3-16 ”绩效 快照 


@ 德勤 : 重 构 绩效 管理 .http://www.360doc.com/content/17/0405/10/40352656_642990321.shtml. 


150 | 人 力 资源 大 数据 应 用 实践 


2. 该 数据 如 何 决定 薪酬 ? 

接 下 来 数据 被 过 滤 ， 只 留 下 某 一 工作 层级 的 员工 。 绩 效 管理 系 
统 的 关键 问题 之 一 是 ， 系 统 能 否 捕捉 到 员工 间 足 够 多 的 差异 ， 保 证 
公平 分 配 。 图 3-17 中 的 分 配 为 之 后 的 讨论 提供 了 基础 。 


5.0 


4.0 


3.0 


2.0 


1.0 2.0 3.0 4.0 
图 3-17 ”数据 决定 薪酬 
3. 对 升 职 有 何 帮助 ? 
被 过 滤 后 的 图 3-18 显 示 了 那些 被 组 长 认为 “此 人 已 做 好 晋升 准 
备 ” 的 组 员 。 这 些 数据 为 每 年 高 管 晋升 员工 的 讨论 提供 了 可 靠 支持 。 


5.0 


4.0 


可 以 加 快 晋升 的 员工 ， 
但 可 能 今年 还 不 是 时 机 


3.0 


2.0 


1.0 2.0 3.0 4.0 
图 3-18 ”数据 决定 升 职 
4. 如 何 解决 绩效 不 佳 的 问题 ? 
过 滤 图 3-19 显 示 了 那些 被 组 长 认为 “此 人 濒临 绩效 不 佳境 遇 ” 
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的 组 员 。 如 图 3-19 右 上 所 示 ， 即 使 表现 不 错 的 员工 也 有 可 能 退步 ， 
组 织 有 责任 帮 他 们 恢复 业绩 。 


3035 | 


4.0 了 


2.0 


绩效 不 如 预期 者 的 工作 方式 | 
会 影响 团队 一 一 开始 修正 


1.0 2.0 3.0 4.0 
图 3-19 改善 绩效 不 佳 状况 


此 应 用 场景 之 一 一 育 ( 培育 场景 ) 


随时 随地 学 习 APP 遍地 可 见 ， 游 戏 化 学 习 也 如 雨后春笋 般 涌 现 ， 自 主 学 习 、 
直播 、 个 性 化 推荐 课程 、 链 接 晋 升 、 云 化 等 是 VUCA 时 代 学 习 新 特点 。 
这 里 以 个 性 化 推荐 课程 为 例 讲 讲 大 数据 是 如 何 支撑 培训 的 。 


1. 用 户 偏好 建 模 


通过 对 用 户 在 培训 学 习 过 程 中 的 课程 资源 、 学 习 任务 、 学 习 圈 子 、 用 户 类 型 、 
用 户 以 及 行为 、 学 习 风 格 、 途 径 等 特征 进行 偏好 建 模 与 提取 ， 并 进行 深度 分 析 ， 
挖掘 出 用 户 潜在 偏好 ， 为 个 性 化 推荐 服务 打下 基础 。 

用 户 偏好 信息 通常 包括 : 用 户 的 注册 基本 信息 〈 大 多 是 从 HR 系统 同步 过 来 
的 ， 如 姓名 、 性 别 、 年 龄 、 部 门 、 级 别 等 ) 、 评 论 、 浏 览 、 收 藏 、 点 赞 、 下 载 、 
分 享 、 转 发 、 直 播 回 看 、 定 制服 务 等 ， 还 包含 课程 完成 情况 、 历 史 信 息 等 。 通 过 
对 这 些 信息 的 聚 类 分 析 、 机 器 学 习 等 ， 就 形成 用 户 的 若干 偏好 特征 标签 。 


2. 课程 标签 
按照 学 习 地 图 对 课程 进行 分 级 、 标 签 化 ， 这 些 课 程 包括 通用 类 、 专 业 类 、 视 
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频 直播 类 ， 这 可 以 理解 为 课程 的 官方 标签 。 同 时 普通 用 户 也 可 以 为 课程 添加 民间 
标签 ， 作 为 课程 的 补充 属性 。 


3. 个 性 化 推荐 课程 


有 了 用 户 的 若干 个 行为 偏好 特征 标签 ， 就 可 以 对 应 于 课程 标签 进行 个 性 化 推 
荐 了 。 但 实际 操作 过 程 中 ， 用 户 可 能 不 买账 ， 认 为 有 些 课程 并 不 是 他 想 要 的 。 这 
就 还 需要 根据 用 户 的 学 习 风 格 以 及 学 习习 惯 不 断 进行 机 器 学 习 调 优 ， 并 最 终 达 到 
用 户 想 看 到 的 时 候 系统 已 经 推送 到 位 。 


应 用 场景 之 一 一 留 ( 离职 场景 ) 


1. 什么 是 离职 管理 


HR 清晰 地 知道 更 换 一 名 员工 的 平均 成 本 还 是 比较 大 的 ， 差 不 多 是 员工 一 年 
薪水 的 21%。 离 职 管理 是 企业 对 人 才 “ 选 用 育 留 ” 的 最 后 一 环 ， 但 却 是 最 重要 的 
一 环 ， 留 人 的 成 功 与 否 直接 决定 着 前 三 个 环节 是 否 有 效 。 

为 降低 员工 离职 率 ， 通 过 离职 关怀 吸引 老 员 工 回 到 公司 ， 同 时 离职 管理 也 是 
企业 文化 的 体现 ， 做 得 好 能 够 在 同行 业 中 树立 人 力 资源 管理 的 形象 ， 能 为 以 后 吸 
引 高 级 人 才 打下 基础 。 


2. 什么 是 离职 预测 


将 员工 相关 的 信息 利用 大 数据 挖掘 技术 进行 建 模 分 析 ， 找 出 有 离职 倾向 的 员 
工 ， 提 前 以 概率 的 形式 展示 给 主管 或 HRBP， 让 主管 或 HRBP 尽 可 能 早 地 得 到 预 
警 信息 ， 以 便 在 员工 跳槽 之 前 采取 行动 ， 比 如 调 薪 、 调 岗 等 挽留 动作 ， 或 提前 补 
充 人 力 ， 避 免 给 工作 带 来 更 大 影响 。 

前 面 文中 讲 过 ， 可 以 从 薪酬 福利 、 晋 升 轮 岗 、 办 公 环境 、 工 作 压 力 、 培 训 学 
习 、 绩 效 与 个 人 发 展 、 文 化 氛围 、 外 部 热点 等 八大 维度 重点 分 析 。 同 时 八大 维度 
也 包含 个 人 时 时 刻 刻 的 行为 动机 等 因素 ,比如 , 工作 饱和 意愿 降低 、 工 作 效率 低 、 
项 目 参与 度 减 少 、 请 假 频繁 度 高 、 隐 秘 电话 多 、 上 网 投 简历 、 内 部 吐槽 增多 、 
社交 变化 等 ， 这 些 重要 维度 与 行为 因素 通过 多 元 回归 ， 将 能 更 科学 、 更 客观 
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地 反映 离职 趋势 。 当 然 ， 模 型 也 需要 不 断 地 和 返 代 优化 ， 以 便 更 准确 地 达到 预测 
目的 。 


3. 离职 预测 路 径 


预测 路 径 主 要 是 根据 加 薪 时 间 、 晋 升 时 间 、 在 岗 时 间 、 考 勤 状况 、 参 会 记录 
等 100+ 人 力 资源 指标 ， 加 外 部 与 情 分 析 ， 根 据 过 去 发 生 的 已 离职 情况 推导 出 
指标 的 离职 指数 ， 根 据 离职 指数 ， 利 用 回归 算法 等 大 数据 模型 预测 未 来 。 数 
据 包括 内 部 数据 和 外 部 数据 。 内 部 数据 需要 HR 数据 通过 申请 ; 外 部 数据 主 
要 是 社交 数据 ， 通 过 扑 虫 技术 获取 ， 比 如 知名 技术 产品 论坛 、 账 号 统一 体系 等 
方法 。 

离职 原因 从 大 块 上 分 为 主动 和 被 动 。 通 常 ， 影 响 员工 离职 的 因素 分 为 以 下 几 
个 因素 〈 图 3-20) 。 


个 体 年龄、 性 别 、 司 龄 、 级 别 、 绩 效 、 薪 酬 、 福 利 、 工 作 内 容 、 家 庭 、 
因素 ”个 人 能 力 、 个 人 成 就 、 培 训 、 学 习 、 行 为 、 个 人 职业 发 展 …… 


组 织 ”企业 文化 、 组 织 氛围 、 EE 上 下 级 关系 、 管理 幅度 、 
要 素 分 析 训 因素 “peer pressurs、 满意 度 … 


外 部 外 部 市 场 工 作 机 会 、 外 部 薪酬 水 平 、 创 业 环境 、 
因素 市 场 热 度 、 行 业 报告 …… 


~ 
八大 维度 结构 化 指标 


图 3-20 ”离职 原因 分 析 


个 体 因素 : 年 龄 、 司 龄 、 绩 效 、 薪 酬 福利 、 工 作 内 容 、 家 庭 、 个 人 能 力 、 个 
人 成 就 、 培 训 机 会 、 个 人 职业 发 展 等 ; 

组 织 因 素 : 企业 文化 、 组 织 氛 围 、 工 作 压 力 、 上 下 级 关系 、 同 伴 压力 、 心 理 
安全 感 等 ; 

外 部 因素 : 外 部 市 场 工 作 机 会 、 薪 酬 水 平 、 环 境 氛围 、 市 场 热度 等 。 

总 体 上 来 说 ， 离 职 原因 可 以 分 为 从 办 公 环境 、 工 作 压力 、 晋 升 轮 岗 、 培 训 学 
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习 、 个 人 发 展 、 薪 酬 福 利 、 文 化 氛围 、 外 部 机 会 等 八大 维度 方面 预测 员工 离职 的 
可 能 性 。 

通过 对 上 面 八大 维度 两 两 之 间 的 相关 性 分 析 ， 找 出 哪些 显著 正 相 关 、 哪 些 显 
著 负 相关 ， 看 各 维度 之 间 互 相 影响 的 程度 如 何 ; 同时 进行 各 维度 与 离职 倾向 之 间 
的 相关 性 分 析 。 一 般 情况 下 ， 办 公 环 境 、 晋 升 轮 岗 、 培 训 学 习 、 个 人 发 展 、 薪 酬 
福利 、 文 化 氛围 等 与 离职 倾向 负 相 关 ， 工 作 压力 、 外 部 机 会 与 离职 倾向 正 相关 。 

最 后 通过 多 元 回归 分 析 模 型 进一步 分 析 各 维度 与 离职 倾向 之 间 的 关联 关系 以 
及 影响 程度 ， 逐 步 回归 ， 厘 清 影 响 因素 并 进行 排序 ， 从 而 为 下 一 步 采取 相应 的 措 
施 提供 了 依据 〈 图 3-21) 。 


相关 性 办 公 晋升 培训 个 人 薪酬 文化 | 于 E 外 部 
分 折 ， 实 环境 轮 岗 学 习 发展 福利 氛围 | 于 为 | 机 会 
KA 

页 相关 让 相关 


ee EIEIO 


多 元 回归 模型 、 逐 步 回 归 ， 厘 清 影 响 因素 并 进行 排序 ， 从 而 
为 保留 人 才 采 取 响应 的 措施 提供 了 依据 


图 3-21 离职 原因 相关 性 及 回归 分 析 


当然 ， 以 上 仅仅 是 一 个 例子 ， 可 以 通过 更 多 的 方式 、 技 术 来 实现 。 针 对 
不 同 的 专业 ， 也 有 不 同 的 反映 。 即 使 同 岗位 序列 ， 不 同 的 环境 ， 也 会 有 不 同 
的 体验 。 


4. 离职 数据 挖掘 ( 过 去 发 生 了 什么 ) 


基础 数据 : 人力 资源 数据 、 简 历数 据 等 结构 化 数据 。 

整合 数据 : 社交 网 络 、 产 品 论坛 等 非 结构 化 数据 与 结构 化 数据 的 集合 。 

净化 数据 : 通过 文字 识别 、 怜 虫 等 技术 将 非 结构 化 数据 转化 为 结构 化 数据 ， 
通过 数据 可 视 化 技术 ， 清 洗 异常 数据 。 
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EDW 建 模 : 通过 分 析 已 离职 员工 特点 ， 建 立 模型 ， 通过 现 有 数据 验证 数据 
模型 。 


5. 离职 数据 分 析 ( 数据 背后 的 原因 ) 


基础 分 析 : 员工 填写 的 离职 原因 并 不 一 定 是 离职 原因 ; 员工 离职 后 一 个 月 说 
出 的 离职 原因 更 趋 近 事实 。 

集成 分 析 : 类 似 百 度 指 数 ， 关 键 字 是 否 可 以 与 离职 指数 匹配 ( 例 : google 回 
归 中 国 ， 关 键 字 是 否 会 影响 离职 指数 ) ; 行业 的 发 展 前 景 、 新 兴 竞 争 对 手 的 出 现 
等 外 部 原因 。 


6. 离职 数据 预测 分 析 ( 未 来 会 发 生 什 么 ) 


根据 现 有 模型 推导 出 3 个 月 内 离职 可 能 , 6 个 月 内 离职 可 能 , 一 年 内 离职 可 能 。 

典型 应 用 场景 一 

企业 人 才 留 存 主要 取决 于 员工 满意 度 和 外 部 的 人 才 竞 争 。 通 过 对 日 常 工作 行 
为 数据 进行 收集 、 分 析 和 挖掘 ， 猎 聘 可 以 获得 员工 满意 度 方面 的 数据 。 外 部 的 人 
才 竞 争 情况 则 可 以 通过 基于 大 数据 的 行业 人 才 趋 势 报告 和 薪酬 报告 获得 。 综 合 这 
些 数据 ， 结 合 历史 ， 猎 聘 建 立 一 个 员工 的 流失 风险 模型 。 用 这 个 模型 ， 我 们 就 可 
以 发 现 高 流失 风险 的 员工 和 可 能 导致 流失 的 因素 。 然 后 ， 企 业 可 以 针对 性 地 采取 
合适 的 行动 去 挽留 那些 优秀 员工 ， 提 升 员 工 满意 度 。 

典型 应 用 场景 二 

作为 中 国 互 联网 公司 中 规模 颇 大 、 发 展 速度 飞快 的 典型 代表 之 一 ， 百 度 公 
司 曾 经 面临 着 、 也 正经 历 着 互联 网 公司 人 力 资 源 管理 中 诸多 痛 点 ， 比 如 ， 人 才 
流动 快 、 组 织 复杂 而 且 结构 调整 频繁 、 个 性 强 、 岗 位 轮换 频率 快 、 组 织 文 化 稀 
释 严 重 等 。 

坐 拥 人 工 智能 和 大 数据 两 大 优势 的 百度 公司 ， 向 上 述 问题 发 起 了 冲锋 ， 做 出 
了 很 多 前 瞻 性 的 探索 。 百 度 组 建 了 面向 智能 化 人 才 管理 的 专业 复合 型 团队 : “ 百 
度 人 才智 库 ” (Baidu Talent Intelligence Centre，TIC) 。 

百度 人 才智 库 的 主要 设计 者 和 带头 人 熊 辉 指出 ，TIC 团队 从 业务 场景 入 手 ， 


@ 能 辉 . 百度 人 才智 库 〈TIC) : 引领 人 才 管理 人 工 智能 化 转型 一 一 离职 预测 准确 率 超过 90%. 哈 
佛 商业 评论 . 


156 | 人 力 资源 大 数据 应 用 实践 


与 人 才 管 理 专家 、 百 度 大 数据 和 人 工 智能 领域 的 专家 一 起 ， 以 超过 10 万 内 部 员 
工 数据 (历史 + 在 职 ) 及 海量 多 源 外 部 公开 数据 为 基础 ， 在 近 一 年 内 从 无 到 有 创 
建 并 提供 了 国内 首 套 智能 化 人 才 管 理 综合 解决 方案 。 

举 个 例子 ， 关 于 离职 预测 和 分 析 。 通 过 收集 公司 内 外 部 的 数据 ， 包 括 来 自 社 
交 媒 体 和 互联 网 的 与 情 信息 和 文本 ，TIC 建立 了 包含 经 济 、 职 业 发 展 和 个 人 家 庭 
原因 等 数 百 个 动态 特征 的 90 天 离职 预测 模型 , 预测 准确 率 达 到 了 90% 以 上 。 例如 ， 
在 2015 年 进行 的 一 项 离职 预测 中 ，TIC 分 析出 了 离职 指数 最 高 的 前 30 名 百度 员 
工 ，3 个 月 内 其 中 29 人 向 人 力 部 门 提出 了 离职 申请 。 相 应 地 ，TIC 还 能 计算 出 员 
工 的 离职 影响 力 有 多 大 ， 并 分 析出 离职 的 各 种 原因 。 如 果 离 职 指数 高 的 员工 达到 
一 定 的 重要 程度 或 者 不 可 或 缺 ， 且 离职 原因 在 公司 可 控 范 围 内 ， 百 度 就 能 够 及 时 
进行 干预 ， 采 取 适 当 的 激励 挽留 手段 。 


世纪 应 用 场景 小 结 


总 体 来 说 ， 从 实践 角度 ， 大 数据 在 人 力 资源 管理 的 “ 选 、 育 、 用 、 留 ”应 用 
场景 主要 聚焦 在 以 下 几 个 方面 〈 详 见 图 3-22) ， 但 不 限于 此 。 


和 只 预 型， 高 取 风险 预 
人 智能 关怀 ， 关联 事件 触发 
智 享 推荐 ， 优 秀 面试 官 推荐 、 关怀 和 祝福 提醒 


面试 评分 


智能 推荐 :课程 个 性 化 推荐 、 
敏捷 绩效 ， 随 时 沟通 、 随 时 更 新 目标 员工 学 习 地 图 
管理 实践 ， 按 专题 辅助 高 层 管理 决策 个 性 化 阅读 : HR 精华 内 容 智 能 
360" 洞 察 : 内 外 部 人 才 画 像 、 高 潜 识别 解析 和 推荐 阅读 
行业 洞察 : 对 标 竞聘 公司 、 打 造 业 界 标杆 


图 3-22 ”Al 在 选 育 用 留 方面 的 应 用 了 
1. 选 才 方 面 
第 一 是 职能 解析 。 精 准 地 把 候选 人 的 简历 高 效 地 推荐 给 面试 官 ， 实 现 人 岗 的 


@ 王 崇 良 .AI 在 人 力 资源 领域 的 应 用 .2017 年 eHR 年 会 . 
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智能 匹配 ; 第 二 是 智慧 识 人 。 对 于 外 部 人 才 ， 把 岗位 经 过 筛选 推荐 给 候选 人 ， 可 
以 以 逆向 的 形式 ， 比 如 ， 高 端 人 才 或 稀有 人 才 可 能 在 网 上 留 下 了 一 份 简历 ， 但 是 
没 那么 活跃 ， 更 新 也 比较 慢 ， 我 们 可 以 把 公司 的 岗位 推荐 给 他 ， 让 他 有 关注 ， 更 
精准 。 第 三 是 智 训 推荐。 在 招聘 上 面 评 的 时 候 加 语音 技术 ， 可 以 把 整个 面试 过 程 
记录 下 来 。 


2. 用 才 角 度 


不 少 知名 公司 ， 比 如 GE、 微软、IBM 等 放弃 了 传统 的 KPI 考核 方式 ， 而 采 
取 人 敏捷 绩效 ， 加 强 沟通 和 反馈 。 如 何 增加 沟通 的 频次 ， 移 动 端 是 个 手段 ， 但 语音 
技术 是 最 快 的 , 通过 语音 技术 上 下 级 随时 沟通 , 根据 业绩 完成 情况 及 时 更 新 目标 
在 管理 实践 上 ， 按 照 专 题 辅助 高 层 进行 管理 决策 ， 同 时 开启 360° 洞察 ， 从 不 同 
角度 对 高 潜 或 绩优 人 才 画 像 , 实现 人 才 精 准 识别 。 虽然 这 个 应 用 目前 有 一 定 难 度 ， 
但 是 百度 公司 的 人 力 资源 及 技术 团队 已 经 开发 并 进行 了 和 迭代， 效果 颇 佳 ， 利 用 大 
数据 技术 ， 对 标 竞 品 企业 ， 打 造 业界 标杆 ， 这 是 大 数据 的 行业 洞察 功能 。 


3. 留 才 方面 


主要 应 用 在 离职 预测 和 智能 关怀 上 。 离 职 预测 我 们 相关 章节 已 经 做 了 分 析 。 
对 于 智能 关怀 ， 是 基于 员工 画像 ， 提 供 个 性 化 、 智 能 化 的 关怀 体验 〈 图 3-23) 。 
可 以 根据 司 龄 ， 在 员工 结婚 纪念 日 等 重要 节日 ， 根 据 员工 的 兴趣 爱好 、 生 活 日 常 
需要 、 工 作 需 求 及 消费 倾向 等 方面 计算 出 员工 的 “标签 ”, 发 放 公司 的 “员工 关怀 ”。 


[了 
基础 标签 汽车 己 
| | dd 
性 别 各 党 二 人 号 mg 县 电 依 游 出 行 Pe 2016 者 季 EE 理 级 产品 
专业 Sm 经 个 护 美容 EE 加 二 6 
人 日 bar 2014 秋季 En 硬 级 TS 
2014 春季 EE 晋级 T5 
次 如 
统计 标签 $ 二 
拿 富 
入 职 公司 年 限 
as OO@( )@@ 
从 会 部 六 
Rs 
职业 路 径 祝福 语 § 过 NE 
入 职 感谢 你 在 百度 这 一 年 来 的 努力 工作 ， * 号 
转正 小 度 对 你 这 一 年 来 的 努力 表示 感谢 ! 
获奖 祝 您 事业 有 成 ， 家 庭 幸福 1 ( 场景 驱动 ] 


图 3-23 ”基于 员工 画像 的 个 性 化 和 智能 化 的 关怀 体验 
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4. 育才 方面 


利用 大 数据 技术 给 员工 提供 智能 化 阅读 推荐 和 个 性 化 学 习 ， 打 造 人 才 发 展 生 
态 圈 (图 3-24) 。 


学 习 社 群 同事 圈 传 播 


到 | 必 
- 


户 画 内 容 ，UGC 原 生 内 容 
深度 全 时 与 风 盆 | 共生 | 度 学 堂 移动 冰 
学 习 “智能 推荐 
‘ OY 
体验 
互动 、 参 与 、 分 享 、 游 戏 化 
多 端 体验 提升 


学 习 


全 FE 
多 in 


图 3-24 人 才 发 展 生态 
5. 对 于 整个 人 力 资源 大 数据 研究 与 探索 来 讲 ， 概 括 起 来 可 以 分 三 个 层面 


第 一 层 是 看 山 是 山 ， 看 水 是 水 。 这 一 阶段 是 要 找事 情 的 本 源 是 什么 ; 

第 二 层 是 看 山 不 是 山 ， 看 水 不 是 水 。 眼 见 的 都 不 一 定 是 事实 ， 背 后 可 能 有 故 
事 ， 这 个 HR 应 该 有 体会 ; 

第 三 层 是 看 山 还 是 山 ， 看 水 还 是 水 。 这 就 需要 有 洞察 ， 通 过 事物 表面 的 现象 
看 清 背后 的 本 质 ， 从 而 提前 去 预防 预测 。 


设 


人 力 资 源 大 数据 平台 建 
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第 


> 


人 力 资 源 管理 信息 智能 化 发 展 


随 着 移动 互联 网 的 蓬勃 发 展 ， 以 云 计算 、 大 数据 化 、 社 交 化 等 为 代表 的 移动 
互联 技术 和 相关 的 应 用 ， 已 经 逐步 从 消费 层面 切入 产业 层面 ， 将 从 根本 上 颠覆 传 
统 产业 的 生产 和 经 营 模式 。 而 产业 互联 网 在 生产 制造 行业 的 突破 ， 将 会 引领 整个 
行业 走 进 以 智能 工矿、 智能 生产 、 智 能 物流 三 大 主题 组 成 的 工业 4.0 时 代 。 这 个 
时 代 的 人 力 资源 信息 智能 化 建设 紧迫 而 又 非常 必要 。 


智能 分 析 ， 对 标 决 策 


移动 互联 网 时 代 ， 大 众 创 新 ， 万 众 创业 ， 人 力 资源 领域 的 选用 育 留 管理 也 发 
生 了 根本 的 变化 : 

创新 、 激 励 、 赋 能 、 引 领 是 这 个 时 代 的 关键 词 ; 

去 中 心 化 、 去 KPI、 自 组 织 、 阿 米 巴 、 合 弄 制 是 这 个 时 代 的 流行 

移动 化 、 社 交 化 、 智 能 化 、 大 数据 技术 驱动 逐步 成 为 了 趋势 …… 

移动 设备 让 人 们 随时 随地 联系 任何 人 …… 

如 何 建立 一 套 智能 化 的 人 力 资源 管理 信息 系统 平台 ， 对 标 决 策 ， 是 每 一 家 公 
司 人 力 资源 经 理 的 必修 课 。 

通过 建立 一 套 完 整 的 人 力 资源 管理 信息 系统 ， 对 内 外 部 运营 数据 、 和 与 情 、 对 
标 数据 的 收集 、 处 理 以 及 大 数据 技术 智能 分 析 ， 为 企业 管理 者 和 决策 者 提供 管理 
驾驶 舱 、 用 户 画像 ， 让 数据 说 话 ， 建 立 事前 有 预测 、 事 中 有 监控 、 事 后 有 分 析 的 


型 
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决策 新 机 制 ， 从 而 让 管理 者 能 更 快 更 容易 地 做 出 更 好 的 “选用 育 留 ”的 决策 ， 助 
力 业 务 更 大 发 展 (图 4-1) 。 


图 4-1 人 力 资源 大 数据 智慧 决策 


攻 ER 对 接 集成 ， 系 统一 体 化 


人 力 资源 的 “选用 育 留 ”管理 需要 很 多 系统 支撑 ， 通 常 需 要 一 个 CoreHR 包 
含 组 织 管理 、 岗 位 管理 、 基 础 人 事 与 工 薪 管 理 等 主要 功能 ， 无 论 你 使 用 的 是 国际 
品牌 ， 如 SAP HR、PeopleSoft、Workday 等 ， 还 是 国内 用 友 、 人 金蝶 等 ，CoreHR. 
是 基础 核心 模块 。 除 此 之 外 ， 招 聘 、 学 习 、 绩 效 、 薪 酬 等 是 必 不 可 少 的 模块 ， 将 
这 些 模块 有 机 地 连接 起 来 构建 一 体 化 的 信息 平台 ， 打 破 各 自信 息 孤岛 ， 将 为 下 一 
步 大 数据 智能 化 分 析 打 下 和 良好 的 基础 。 下 面 我 们 先 来 看 看 一 些 主要 模块 是 如 何 进 
行 大 数据 分 析 的 ， 以 终 为 始 ， 从 而 反刍 建设 智能 化 的 系统 平台 。 


1. 人 力 HC 预算 编制 模块 


在 人 力 资源 HC 计划 设计 中 ， 利 用 大 数据 挖掘 技术 ， 搜 索 、 收 集 、 清 理 、 调 
用 内 外 部 信息 (包含 历史 经 营 数据 、 政 策 变化 内 容 等 ) ， 通 过 对 这 些 信息 的 加 工 
处 理 与 建 模 ， 模 拟 仿真 可 能 发 生 的 人 员 成 本 、 人 员 绩 效 ， 乃 至 人 员 流 动 的 变化 情 
景 ， 综 合 分 析 得 出 现 有 组 织 内 人 力 使 用 情况 以 及 人 力 成 本 报告 ， 并 对 其 现状 合理 
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性 进行 评估 ， 对 企业 未 来 的 人 力 资源 HC 编制 以 及 人 力 成 本 做 出 预测 以 及 调整 建 
议 ， 方 便 企 业 管 理 层 决策 。 


2. 招聘 模块 


通过 人 力 HC 预算 编制 、 人 力 成 本 分 析 ， 再 加 上 人 岗 匹配 盘点 ， 就 可 以 计划 
招聘 工作 了 。 通 过 建立 智能 搜索 引擎 与 人 才 雷 达 ， 当 有 职位 空缺 时 ， 智 能 搜索 引 
擎 自动 从 人 才 简历 库 中 匹配 并 精准 推荐 人 选 给 面试 官 ， 同样 ， 对 于 求职 者 也 要 实 
现 精准 推荐 。 另 外 根据 离职 预测 系统 发 布 的 人 员 预 警 ， 分 析 人 员 离 职 率 和 离职 原 
因 ， 向 招聘 主管 提供 补缺 建议 参考 。 


3. 绩效 管理 模块 


基于 VUCA 时 代 的 绩效 考核 何去何从 ? 是 继续 传统 的 BSC、KPI， 还 是 基于 
敏捷 的 OKR ? 目前 多 家 企业 开始 尝试 取消 绩效 考核 的 “强制 分 布 曲线 ”与 “ 末 
位 淘汰 制 ”, 代 之 以 全 新 系统 。 以 敏捷 方式 经 理 对 员工 的 管理 与 考核 主要 通过 “ 持 
续 沟 通 ” 进 行 ， 考 核 结 果 不 出 现 数字 ， 也 尽量 不 与 奖金 和 薪资 直接 挂 钧 。 例 如 ， 
GE 的 PD @ GE，IBM 的 Checkpoint 与 ACE 等 。 这 些 都 是 我 们 设计 系统 的 参考 。 


4. 薪酬 模块 


新 时 代 基 本 工资 、 奖 金 等 对 员工 的 激励 效果 在 逐步 减弱 ， 而 股票 、 福 利 、 内 
部 创业 等 新 形式 则 受 员工 关注 。 如 何 建立 价值 创造 、 价 值 评估 、 价 值 输出 的 一 个 
公平 的 薪酬 评价 体系 是 努力 的 方向 。 


5. 学 习 与 发 展 模块 


随时 随地 学 习 APP 遍地 可 见 ， 游 戏 化 学 习 也 如 雨后春笋 般 涌现 ， 自 主 学 习 、 
有 效 学 习 、 直 播 、 个 性 化 推荐 课程 、 链 接 晋 升 、 云 化 等 是 VUCA 时 代 学 习 新 特点 。 

汇总 来 讲 ， 人 力 资 源 信息 平台 要 解决 “人 力 升降 调 、 选 用 育 留 管 ” 的 系统 集 
成 ， 同 时 进行 结构 化 数据 与 非 结构 化 数据 沉淀 ， 通 过 大 数据 分 析 ， 对 业务 进行 预 
警 预测 ， 报 告 可 视 化 ， 为 管理 层 决 策 服 务 ( 图 4-2) 。 
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HR 业务 流程 CoreHR 


0 本 

用 -人 
离 四 

育 Dp 职位 管理 只 其 他 系统 数据 应 用 
逢 

留 
降 

管 
调 


非 结构 化 数据 


基于 人 力 资源 信息 系统 的 数据 应 用 


1. 典型 案例 分 析 


人 力 资源 管理 信息 系统 的 发 展 经 历 了 不 同 的 时 代 ， 产 生 的 作用 与 影响 也 各 不 
相同 。 

PC 时 代 : 各 个 模块 逐步 线 上 化 ， 实 现 办公 室 自动 化 ， 能 提供 简单 数据 分 析 
以 及 标准 报表 ， 满 足 基本 数据 处 理 要 求 。 但 由 于 企业 发 展 不 同 阶段 开发 的 不 同系 
统 ， 连 通 性 较 弱 ， 容 易 产 生 信息 孤岛 。 

互联 网 时 代 : 系统 建设 开始 考虑 互联 互通 ， 把 HR 内 部 零碎 的 信息 、 孤 立 的 
应 用 变 成 一 个 互相 连接 、 有 机 组 成 的 完整 系统 ， 数 据 开 始 了 交换 与 集中 处 理 ， 可 
以 进行 多 维度 的 数据 分 析 ， 为 管理 者 提供 报表 参考 ， 帮 助 决 策 。 但 此 阶段 能 处 理 
的 还 是 结构 化 数据 ， 对 于 大 量 文本 、 外 部 信息 等 ， 还 不 能 有 效 利 用 ， 进 而 挖掘 内 
在 规律 ， 为 决策 服务 。 
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移动 互联 网 时 代 : 是 万 物 互联 社会 化 大 协同 的 时 代 ， 信 息 化 主要 解决 半 结 构 
化 问题 与 非 结构 化 问题 。 移 动 终 端 设备 与 移动 APP 的 快速 发 展 ， 基 于 及 时 连接 
会 产生 海量 的 数据 ， 通 过 大 数据 技术 ， 对 内 外 部 结构 化 与 非 结 构 化 的 数据 进行 清 
理 、 建 模 、 分 析 、 可 视 化 ， 利 用 过 去 的 数据 预测 未 来 ， 预 测 企业 的 各 种 运营 情况 ， 
利用 信息 来 调整 控制 企业 行为 ， 帮 助 企 业 实现 其 规划 目标 ， 真 正 利 用 大 数据 辅助 
决策 、 助 力 企 业 发 展 。 

以 百度 人 力 资源 信息 化 进程 为 例 说 明 这 几 个 阶段 的 建设 历程 。 

百度 的 人 力 资源 信息 化 工程 至 今 可 分 为 三 个 阶段 。 

【第 一 阶段 ，PC 时 代 】2010 年 以 前 : 公司 的 人 力 资源 信息 化 处 于 基础 应 
用 阶段 ， 主 要 体现 在 人 力 资 源 主 数据 库 (Core HR + Payroll， 其 中 包括 组 织 、 岗 
人 位、 人事、 薪资 信息 等 ) 的 运用 ， 更 多 的 是 以 Payroll 为 主 的 系统 ， 不 能 作为 HR 
Master Database。 而 外 围 入 离职 系统 功能 相对 较 简单 ， 报 表 应 用 也 相对 薄弱 ， 周 
围 还 有 很 多 业务 发 展 不 同 阶段 开发 的 独立 系统 ， 形 成 了 不 少 信息 孤岛 。 由 于 百度 
业务 迅速 扩展 ， 以 及 人 数 激增 ， 原 有 的 系统 已 无 法 满足 与 日 俱 增 的 数据 和 人 力 资 
源 业 务 要求 ， 因 此 百度 着 手 开 展 人 力 资源 信息 系统 的 全 线 升级 和 优化 〈 图 4-3) 。 


请 休假 
离职 组 织 /人 事 /薪资 入 职 


人 事变 更 


4-3 PC 时 代 的 人 力 资源 信息 系统 架构 


【第 二 阶段 ， 互 联网 时 代 】2011 一 2012 年 : 百度 人 力 资 源 信息 化 全 面 发 展 
与 提升 阶段 。 

HR 与 IT 成 立 联合 项 目 组 ， 打 了 一 场 人 力 资源 信息 化 “战役 ”一 一 集中 优势 
“兵力 ”利用 一 年 时 间 重 新 打造 HR 系统 ， 敏 捷 开 发 ， 快 速 迭代 ， 实 现 “ 入 高 升 
降 调 ， 选 用 育 留 辞 ” 建 设 的 一 步 到 位 。? 

(1) 重新 规划 人 事主 数据 ， 完 善 HR Master Database。 在 原先 薪酬 系统 


@ ”德勤 : 重 构 绩效 管理 . http://www.360doc.com/content/17/0405/10/40352656_642990321.shtml. 
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(Payroll) 中 人 事 基 本 数据 的 基础 上 ， 丰 富 员工 个 人 基本 信息 、 家 庭 、 教 育 、 工 
作 经 历 、 岗 位 信息 、 工 作 信息 、 绩 效 信息 、 评 估 信 息 等 ， 全 方面 完善 公司 万 余 名 
员工 的 人 事 数 据 ， 并 同时 进行 历史 数据 清理 校准 ， 提 高 准确 度 ， 为 满足 今后 多 样 
化 的 数据 需求 做 好 充分 准备 。 

(2) 外 围 系统 的 梳理 与 重新 建设 。 对 外 围 系统 的 规划 可 分 为 两 个 方面 : 一 
方面 是 实现 从 无 到 有 的 建设 ， 自 主 开 发 了 人 事变 更 系统 、 试 用 期 管理 系统 、 绩 效 
与 发 展 管理 系统 和 奖金 系统 等 。 另 一 方面 是 从 残缺 到 完整 的 优化 ， 实 现 系 统 与 人 
力 资源 主 数据 库 的 无 颖 对 接 ， 克 服 了 原先 需要 手动 导入 导出 带 来 的 不 便 。 

(3) 完成 数据 线 上 流转 的 一 致 性 。 基 于 员工 在 企业 内 的 生命 周期 ， 实 现 员 
工 从 招聘 、 入 职 、 新 员工 培训 、 试 用 期 、 学 习 、 考 核 、 发 展 等 一 系列 数据 在 系统 
互通 互联 的 基础 上 能 够 自动 流转 ， 完 善 报表 系统 ， 利 于 多 维度 的 数据 分 析 。 

【第 三 阶段 ， 移 动 互联 网 时 代 】 移 动 终端 的 快速 发 展 ， 让 人 与 人 之 间 、 人 与 
机 器 之 间 ， 以 及 机 器 与 机 器 之 间 随 时 连接 成 为 可 能 。 百 度 也 开始 打造 互联 互通 的 
人 力 资源 系统 平台 : 第 一 ， 继 续 优化 与 迭代 全 生命 周期 的 人 才 管 理 ， 第 二 ， 在 组 
织 文化 层面 探索 系统 方式 支撑 公司 战略 ， 第 三 ， 强 化 共享 服务 平台 的 关联 ， 以 产 
品 思维 推进 系统 建设 ， 第 四 ， 开 始 建设 统一 数据 平台 ， 进 行 数据 沉淀 ， 为 大 数据 
分 析 黄 定 基 础 〈 图 4-4) 。 


服务 平台 


全 周期 的 人 才 管理 


图 4-4 移动 互联 网 时 代 的 人 力 资源 信息 系统 架构 


其 中 ， 在 2013 一 2014 年 : 打造 百度 内 部 人 力 资源 APP 产品 〈 度 学 堂 、 度 生 
活 ) ， 实 现 移 动 化 目标 (图 4-5) 。 
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(1) 度 学 堂 : 公司 内 部 用 于 培训 和 学 习 的 产品 ， 通 过 移动 客户 端 和 PC 客 


户 端 ， 员 工 可 以 主要 实现 如 下 五 种 功能 : 


线 上 报名 各 类 培训 课程 ， 参 与 在 线 学 习 、 考 试 或 调查 等 活动 。 
直播 课堂 、 录 播 功能 ， 观 看 各 种 “牛人 大 咖 ” 等 专题 讲座 。 
将 微 课程 (5 ~ 10 分 钟 ) 下 载 至 移动 端 ， 碎 片 化 时 间 随 时 随地 学 习 。 


实现 UGC， 员 工 可 上 传 自己 制作 的 课程 。 

技术 论坛 ， 交 流 互 动 。 

(2) 度 生 活 : 为 员工 提供 生活 和 工作 
便利 的 产品 ,有 PC 端 与 移动 端 ,主打 移动 端 ， 
通过 不 同 的 “频道 ” (生活 频 道 ， 社 团 汇 、 
生活 站 、 挂 号 通 、 安 居 坊 、 跳 蚤 街 、 度 优惠 
等 。 工 作 频道 , 速 查询 、 问 HR、 要 盖 章 等 ) ， 
使 员工 能 够 随时 了 解 、 关 注 公 司 社团 、 活 动 
动态 ， 以 及 享受 到 公司 的 福利 〈 图 4-6) 。 

同时 ， 从 2013 年 开始 在 数据 化 方面 ， 
致力 打造 商务 智能 仪表 盘 、 个 人 全 景 图 ， 
为 管理 层 直观 展示 人 才 各 种 结构 以 及 多 维 分 
析 , 助力 决策 服务 。 同 时 也 开展 了 用 户 画 像 、 
预警 、 预 测 等 项 目的 探索 ， 为 未 来 进一步 的 
研究 呐 定 了 数据 基础 。 


图 4-6 度 生活 
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此 外 , 在 企业 并 购 、 国 际 化 等 方面 ， 人 力 资源 系统 都 做 了 相应 的 扩展 与 改造 ， 
也 积累 了 丰富 的 经 验 。 

2015 年 开始 打造 “Smart HR”: 运用 产品 思维 、 新 技术 通过 “四 化 ”助力 ， 
连接 员工 与 HR 服务 (图 4-7) 。 

数据 化 〈 明 事实 、 察 问题 、 拉 预警 、 报 预测 ) ; 

移动 化 《便捷 工作 、 碎 片 学 习 、 多 彩 生 活 ) ; 

社交 化 (团队 协作 、 分 享 互动 、 文 化 融合 ); 

智能 化 (应 用 云 、 数 据 云 、 服 务 云 )。 


4-7 Smart HR 


2015 年 年 底 上 线 的 游戏 化 学 习 平台 ， 也 是 度 学 堂 的 有 益 补充 。 拿 其 中 项 目 
之 一 “新 兵 职 业 化 之 旅 ”为 例 ， 希 望 通过 6 个 月 的 学 习 将 新 兵 打造 成 可 以 上 战场 
的 专业 战士 。 这 是 一 个 为 期 6 个 月 的 线 上 线 下 相 结 合 的 学 习 体验 ， 并 将 这 6 个 月 
的 学 习 体验 ， 按 照 不 同 的 心理 感知 分 为 蜜月 期 、 定 位 期 、 崛 起 期 和 成 熟 期 。? 

(1) 蜜月 期 

新 员工 初 到 职场 一 切 都 是 新 鲜 而 未 知 的 ， 对 工作 充满 了 期 待 和 美好 。 针 对 该 
阶段 的 员工 ， 百 度 设置 了 信息 安全 、 百 度 人 才 观 、 百 度 业 务 组 织 结构 透视 、 百 度 
发 展 史 等 帮助 员工 了 解 公司 文化 、 制 度 快速 融入 (图 4-8) 。 


Q 信息 来 源 : 何 义 情 . 2016 年 在 CEFE 学 习 论 坛 上 的 演讲 . 
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图 4-8 ”蜜月 期 一 -员工 初 入 职场 

(2) 定位 期 

定位 期 处 于 该 阶段 的 员工 经 历 完 蜜月 期 后 ， 开 始 定位 自己 的 工作 方向 。 此 阶 
段 百度 设置 了 职业 化 水 平 测试 、 基 础 沟通 技巧 、 邮 件 撰写 技巧 、 高 效 开 会 、 时 间 
管理 等 课程 ， 帮 助 员工 定位 自己 目前 的 职业 化 水 平 ， 同 时 能 迅速 掌握 基本 的 职业 
通用 技能 。 

(3) 崛起 期 

崛起 期 是 员工 全 力 以 赴 的 阶段 ， 需 要 更 多 的 沟通 与 协作 。 此 阶段 百度 设置 了 
向 上 沟通 、 结 构 性 思维 、 职 业 沟 通 方式 等 课程 。 

(4) 成 熟 期 

此 时 员工 已 经 基本 适应 工作 氛围 和 节奏 ,会 参与 更 多 的 跨 部 门 、 跨 团队 协作 ， 
此 阶段 百度 设置 了 认识 DISC、 辨 识 对 方 的 沟通 风格 、 适 应 对 方 的 沟通 风格 等 (图 
4-9) 。 


4-9 成熟 期 
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该 项 目 涵盖 的 十 几 门 课程 , 形式 也 是 丰富 多 样 ,有 Flash 课 件 、 视 频 课 件 、 考 试 、 
测评 以 及 微 课程 等 。 通 过 4 个 阶段 的 训练 ， 使 新 人 快速 融入 、 成 长 ， 并 最 大 化 产 
出 ， 达 到 效能 持续 提升 的 目的 。 


2. 基于 人 力 资源 信息 系统 的 数据 应 用 


百度 的 数据 应 用 可 分 为 两 部 分 : 70% 为 结合 当前 业务 现状 和 需求 所 做 的 数据 
分 析 ; 30% 为 基于 数据 预测 所 做 的 超前 规划 。 

例 1: 通过 商务 智能 仪表 盘 ， 监 控 部 门 内 员工 人 力 资源 的 主要 数据 〈 如 关键 
人 才 比 ， 关 键 人 才 离职 率 ， 员 工 离职 率 趋势 等 ) ， 直 观 地 反映 部 门人 才 动 态 。 

例 2: 通过 记录 员工 在 企业 内 部 职位 变动 ， 绘 制 个 人 职业 发 展 路 径 图 ， 继 而 
集合 观察 内 部 人 才 迁 徒 和 流动 状况 及 流失 去 向 。 

例 3: 在 数据 预警 、 预 测 方面 ， 进 行 大 数据 的 与 情 分 析 ， 非 结构 化 数据 的 语 
义 分 析 ， 以 及 离职 、 高 潜 人 才 预 测 等 方面 的 尝试 等 。 

人 力 资源 信息 化 建设 的 各 个 阶段 工作 重心 以 及 任务 是 不 同 的 ， 从 基本 的 工资 
核算 、 发 放 ， 到 全 流程 生命 周期 的 管理 ， 再 到 大 数据 助力 战略 与 业务 ， 侧 重点 也 
由 结果 到 过 程 再 到 价值 ，HR 的 状态 由 被 动 到 主动 ， 地 位 也 随 之 越 来 越 重 要 。 


吓 风 人 力 资 源 信息 化 的 建设 及 启示 


1. 百度 人 力 资源 信息 化 建设 的 经 验 总 结 


人 力 资源 业务 流程 的 梳理 : 任何 系统 在 实施 之 前 ， 对 于 业务 流程 的 梳理 和 优 
化 是 必 不 可 少 的 步骤 , 人 力 资源 系统 也 不 例外 。 百 度 在 2012 年 重新 打造 系统 之 前 ， 
进行 了 为 期 3 个 月 的 业务 流程 梳理 和 职责 划分 。 
(1) 人 力 资源 内 部 业务 流程 梳理 
成 立项 目 组 ， 通 过 对 高 管 、 人 力 资 源 各 部 门 主管 、 各 业务 流程 Owner、 关 键 
节点 作业 人 员 等 的 访谈 ， 业 务 现状 的 梳理 ， 整 理 出 as-is 业务 流程 ， 同 时 对 标 人 
力 资源 业务 成 熟 度 模型 ， 发 现 问 题 ， 找 出 缺陷 ， 归 纳 提 炼 诊断 报告 ， 为 下 阶段 的 
流程 优化 和 系统 功能 设计 奠定 基础 。 
(2) 与 业务 部 门 深 入 碰撞 和 to-be 设计 
项 目 组 联合 人 力 资源 各 业务 负责 人 ,以 及 IT 各 团队 负责 人 , 对 标 最 佳 实践， 
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以 Workshop 的 形式 ， 向 业务 部 门 呈现 人 力 资源 业务 流程 的 规划 方案 和 构思 ， 收 
集 业 务 部 门 的 反馈 和 建议 ， 经 过 多 轮 碰撞 ， 最 终 形成 to-be 蓝图 设计 文档 。 由 于 
方案 已 经 经 过 人 力 资源 内 部 的 共同 商讨 ， 以 及 IT 前 期 投入 的 可 行 性 分 析 ， 在 逻 
辑 上 、 科 学 性 和 可 操作 性 上 已 近乎 完美 ， 因 此 来 自 业 务 部 门 的 挑战 大 大 减少 ， 更 
多 的 要 求 在 于 用 户 体验 度 和 友好 性 上 。 

(3) 汇报 与 决策 

在 业务 梳理 过 程 中 , 对 流程 中 的 重要 节点 以 及 职责 交叉 区 域 , 进行 汇总 提炼， 
给 出 建议 方案 ,汇报 管理 层 最 终 决 策 。 例如，“ 审 批 链 ” 作 为 流程 中 的 关键 内 容 ， 
其 中 梳理 的 一 大 原则 就 是 ， 凡 事 与 “ 钱 ”相关 的 ， 审 批 到 一 定 级 别 ， 凡 事 与 “ 钱 ” 
无 关 的 ， 减 少 审批 ， 真 正 做 到 责 权利 相 结合 。 最 终 形成 “业务 线 2 级 审批 、HR 
线 2 级 把 控 ”， 并 将 80% 的 业务 流程 由 原先 的 多 层 逐 级 审批 缩短 为 4 级 内 审批 ， 
大 大 提升 工作 效率 ， 将 管理 层 从 事务 审批 工作 中 解放 出 来 。 

(4) 系统 开发 ， 快 速 迭代 ， 越 变 越 “ 美 ” 

依据 to-be 业务 蓝图 设计 ，IT 团队 形成 系统 设计 文档 ， 集 中 优势 兵力 ， 分 成 
若干 小 团队 ， 采 用 敏捷 开发 、 场 景 化 、 并 行 开发 ， 快 速 迭 代 ， 在 2012 年 HR 战 
役 年 里 完成 了 大 部 分 系统 的 开发 与 升级 , 以 及 数据 库 的 改造 。 为 支撑 人 力 资源 “人 
才 、 组 织 、 思 想 ” 的 战略 目标 竟 定 了 系统 与 数据 平台 的 坚实 基础 。 

(5) 全 员 宣 贯 

变更 宣传 贯穿 整个 梳理 与 改造 项 目 ， 首 先 在 人 力 资源 内 部 进行 宣传 和 普及 ， 
其 次 组 织 部 门 代表 、 员 工 代 表 等 进行 层 层 宣 贯 ， 并 辅 以 三 折 页 、 宣 传 视频 等 ， 帮 
助 全 体 员工 熟悉 新 流程 ， 并 收集 反馈 ， 不 断 优化 改善 系统 ， 提 高 用 户 体验 。 


2. 百度 人 力 资源 信息 化 的 建议 和 启示 


(1) eHR 在 “互联 网 +” 时 代 做 “减法 ” 

人 力 资源 信息 化 是 一 项 需要 投入 大 量 时 间 、 精 力 和 资源 的 大 工程 ， 许 多 公司 往 
往 希 望 系 统 能 够 实现 越 多 模块 和 功能 越 好 ， 于 是 将 有 限 的 资源 分 散 投入 ， 致 使 最 终 
每 个 模块 的 成 果 都 不 理想 。 与 其 如 此 ， 不 如 有 所 聚焦 有 所 侧重 ， 了 解 企业 管理 层 目 
前 最 关注 的 问题 ， 找 出 痛 点 ,排出 优先 级 ,继而 集中 资源 投入 其 中 ,解决 实际 问题 。 

(2) 助力 员工 服务 ， 提 升 用 户 体验 

聚焦 高 管 、 经 理 、 员 工 、HR 不 同 的 诉求 ， 场 景 化 、 平 台 化 ， 快 速 迭 代 系 统 ， 
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并 加 强 移动 端的 建设 ， 让 员工 在 工作 、 学 习 、 生 活 方面 随时 随地 连接 HR 的 服务 ， 
实现 “小 温馨 ， 大 体验 ”。 


PER 
第 二 节 


人 力 资源 大 数据 业务 模型 ” 


从 业务 角度 来 看 ， 不 仅 要 给 管理 者 以 及 HR 输送 更 准 更 快 更 有 效 的 第 一 手 报 
告 ， 还 要 能 预测 预警 ， 辅 助 管理 者 做 出 正确 的 决策 ， 是 第 一 重要 的 。 

而 要 完成 这 一 步 ， 传 统 的 BI 数据 分 析 系 统 已 经 不 能 完全 胜任 ， 这 就 需要 拱 
建 人 力 资源 大 数据 平台 ， 让 人 力 资源 数据 发 挥 更 大 价值 和 意义 ， 例 如 ， 对 于 预测 
分 析 员工 离职 的 行为 ， 需 要 什么 样 的 数据 ， 各 类 数据 都 有 什么 用 途 ， 如 何 使 用 数 
据 ， 从 哪些 端口 埋 点 获取 这 些 数据 ， 这 些 数 据 如 何 通过 函数 、 建 模 得 出 HRBP 与 
管理 者 一 目 了 然 的 结果 …… 这 是 需要 解决 的 一 系列 问题 。 

如 下 是 人 力 资源 大 数据 平台 的 业务 模型 (图 4-10) ， 第 一 步 : 数据 收集 ， 需 
要 完成 各 类 内 外 数据 的 收集 、 加 工 、 清 理 、 存 储 ， 以 及 对 数据 标签 化 。 第 二 步 : 
对 不 同业 务 、 场 景 进 行 主题 分 析 、 数 据 建 模 、 用 户 画像 、 预 测 预警 等 ， 并 有 各 种 
应 用 展示 。 第 三 步 : 决策 支持 系统 根据 场景 输出 各 类 建议 报告 。 


图 4-10 人力 资源 大 数据 平台 的 业务 模型 
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如 何 做 ? 就 是 对 原始 数据 进行 净化 ， 然 后 形成 报表 ， 到 建 模 后 定制 报表 ， 这 
些 都 是 陈述 传统 意义 上 过 去 发 生 了 什么 ; 然后 进行 描述 ， 同 时 有 红绿灯 、 仪 表盘 
等 更 直观 的 展示 ; 探索 未 来 可 能 发 生 什 么 ， 这 是 百度 一 直 在 强调 的 ， 把 昨天 的 数 
据 丢 到 机 器 里 进行 自主 学 习 ， 把 过 去 的 经 验 和 案例 扔 到 模型 里 面 ， 让 系统 找 出 相 
关 的 关联 关系 ， 自 主 去 学 习 ， 利 用 过 去 在 系统 里 分 析 判 断 ， 然 后 拿 今天 的 数据 来 
校 验 、 调 整 、 优 化 模型 ， 从 而 更 精确 地 预测 明天 可 能 发 生 的 事情 ， 及 时 采取 相关 
行动 ， 占 得 先 机 。 


第 


三 前 


人 力 资 源 天 数据 平台 建设 分 析 | 


根据 人 力 资源 大 数据 业务 模型 ， 演 绎 推导 出 人 力 资源 大 数据 系统 平台 建设 的 
逻辑 架构 ， 可 以 分 为 系统 层 、 数 据 层 、 服 务 层 、 展 示 层 。 如 下 以 百度 人 力 资源 大 
数据 平台 一 一 “ 才 报 ”为 例 作 介绍 。 

百度 从 无 到 有 地 从 系统 层 、 数 据 层 、 分 析 层 、 展 示 层 四 大 层面 ， 系 统 地 搭建 
了 “ 才 报 ”大 数据 平台 的 完整 架构 〈 图 4-11) 。 


决策 支持 建议 报告 
= > > > > 
一 站 式 大 数据 服务 平台 
人 务 场景 分 析 ] [模型 应 用 ] 四 定 分 机 
分 析 层 
人 的 标 体系 本 管 光 人 营 管 玫 se 《化 活力 ( 寿 情 分 术 
企业 级 数据 仓库 
el ET 数据 搞 取 服务 “| | ] [ 066 实时 辣 上 服务 
Spark Hadoop Database Database Database 
系统 层 | | | FRP | ”| 入 BH 也 凤  ， | 有 月 富 汪  | 内 网 等 | ”| 业务 系统 


图 4-11 “ 才 报 ” ( 百度 人 力 资源 大 数据 平台 ) 架构 
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系统 层 


系统 层 是 基础 ， 是 入 离 升 降 调 、 选 用 育 留 管 的 建设 (图 4-12) ， 可 以 理解 
成 数据 收集 层 ， 数 据 埋 点 、 信 息 收集 、 流 程 优化 、 系 统 迭 代 ， 都 在 该 层 实现 ， 这 
就 要 求 我 们 的 系统 是 互联 互通 的 ， 数 据 是 动态 的 端 到 端 流转 。 事 实 上 百度 除了 
Core HR 之 外 ， 还 外 挂 了 几 十 个 自己 开发 的 系统 ， 根 据 场景 不 同 、 耦 合 程度 不 同 
这 些 系 统 之 间 怎 么 去 打通 ， 数 据 怎么 去 自动 地 流转 并 确保 是 唯一 数据 源 都 是 要 解 
决 的 课题 ， 同 时 还 需要 与 相关 的 业务 系统 打通 ， 进 行 数据 交换 ， 否 则 只 有 人 力 资 
源 的 数据 ， 不 够 完整 ， 是 没 法 全 面 评价 ， 或 者 没 法 给 企业 带 来 更 大 效能 ， 至 多 是 
做 一 个 参考 。 当 然 数据 内 部 的 交流 还 是 有 壁垒 的 ， 但 是 我 们 在 尝试 去 做 这 样 的 
事情 ， 在 逐步 地 打破 这 些 壁 又 ， 进 行 数据 交换 的 尝试 ， 所 以 这 块 一 直 在 不 断 地 
迭代 。 


员工 自助 
经 理 自助 


奖金 系统 分 公司 并 购 BIEE 


薪酬 /福利 


调研 
360 评 估 ”离职 管理 F 所 经 验 人 士 
能 力 评估 系统 Core HR 主 数 据 


4-12 ”人 力 资源 大 数据 平台 系统 层 


数据 层 


数据 层 包含 数据 的 清理 、 处 理 、 提 取 、 保 存 、 标 签 化 等 ， 该 层 处 理 的 数据 既 
包含 结构 化 的 数据 ， 也 包含 大 量 的 非 结 构 化 数据 (图 4-13) 。 

在 数据 加 工 过程 中 ， 将 会 发 现 缺 少 很 多 数据 ， 这 就 需要 反刍 到 系统 完善 优化 
上 ， 哪 里 需要 埋 点 收集 数据 ， 该 补 的 补 ， 该 建设 的 建设 。 所 以 系统 层 与 数据 层 是 
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相辅相成 的 关系 ， 螺 旋 上 升 ， 互 相 促进 。 


4-13 人力 大 数据 数据 层 


分 析 层 


分 析 层 包含 主题 分 析 、 自 定义 分 析 等 ， 指 标 体系 建设 、 模 型 建设 也 在 此 完成 。 
比如 描述 过 去 发 生 了 什么 ， 到 诊断 问题 ， 找 寻 发 生 的 原因 。 根 据 过 去 的 数据 ， 通 
过 分 析 建 模 ， 通 过 机 器 学 习 ， 找 其 中 的 关联 关系 ， 而 不 是 像 过 去 一 样 先 通 过 假设 
再 去 印证 。 通 过 对 今天 的 数据 及 时 的 观察 ， 及 时 的 分 析 ， 并 及 时 的 调整 模型 ， 进 
而 让 数据 发 挥 预测 预警 功能 ， 预 测 未 来 可 能 发 生 的 问题 ， 为 未 来 决策 提供 可 信服 
的 依据 。 

“ 才 报 ”系统 背后 的 数据 挖掘 与 分 析 建 立 在 一 套 指标 体系 的 基础 上 ， 这 套 指 
标 体系 由 人 才 管 理 、 运 营 管理 、 组 织 效能 、 文 化 活力 、 与 情 分 析 5 大 维度 的 200 
多 个 指标 组 成 ， 涵 盖 了 人 和 组 织 的 分 析 维度 以 及 所 有 HR 职能 的 衡量 维度 。 其 中 
人 才 管 理 和 运营 管理 的 指标 涉及 更 多 的 是 HR 职能 的 分 解 ， 文 化 活力 与 舆情 分 
析 的 指标 更 多 是 通过 大 数据 的 方式 分 析 员 工 在 工作 、 学 习 、 生 活 等 层面 的 影响 
因素 ， 组 织 效能 通过 一 些 组 织 发 展 工具 提取 不 同业 务 团队 的 有 关 组 织 目 标 、 达 
成 结果 。 整 套 指标 体系 建设 以 及 迭代 优化 历时 一 年 ，HR 以 及 IT 团队 全 程 参与 、 
友 代 (图 4-14) 。 
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A. 人 才 管 理 B. 运 营 管理 C -组织 效能 DD 文化 活力 EE. 与 情 分 析 


| 
| 
~ cwi [ER ER 
“tM [ER cus EE EGG 
cm [ER os 
Ea Fra 
人 才 回 报 指数 人 才 配 置 指数 人 才 质 量 指数 


国 国 人 才 帮 业 指 收 国 国 组 织 气 泉 指数 9 运 区 效率 指数 
图 4-14 ”指标 体系 示例 


是 由 展示 层 


展示 层 包含 各 种 分 析 报 表 、 用 户 画 像 、 报 告 建议 等 。 例 如 红绿灯 仪表 盘 ， 包 
括 离职 率 、 核 心 人 才 离职 率 、 齐 配 率 ， 关 键 人 才 占 比 等 。 又 如 通过 播放 器 的 形式 
动态 展示 调 入 调 出 、 升 降 调转 等 数据 。 这 些 功 能 同时 支持 数据 下 钼 ， 并 能 导出 数 
据 或 可 视 化 的 图 形 。 人 才 迁 徙 图 〈 图 4-15) 可 以 展示 人 才 的 来 源 、 人 才 的 发 展 、 
人 才 流 失 的 场景 : 从 入 职 来 源 、 在 职 的 流动 情况 、 内 部 的 流转 情况 ， 以 及 人 员 流 
失 ， 入 职 的 是 从 哪些 源头 占 比 较 多 ， 离 职 以 后 去 了 哪里 ， 都 可 以 直观 动态 地 展示 。 
再 如 人 才 发 展 层面 ， 我 们 还 可 以 看 到 个 人 全 景 图 ， 我 们 可 以 对 人 才 进 行 比 较 ， 看 
每 个 人 的 特点 是 什么 ， 在 各 项 指标 上 大 家 是 什么 样 的 情况 。 


职 职能 满意 度 
人 员 效 痊 。。 负 负 明 和 
人 力 成 本 效益 。 员工 参与 度 


图 4-15 人 才 迁 徙 图 
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人 力 资源 大 数据 平台 建设 可 以 分 为 5 个 层面 进行 梳理 。 第 一 ， 对 内 外 部 数据 
进行 整合 ， 建 立 HR 主题 大 数据 仓库 ， 第 二 ， 对 数据 进行 人 才 标 准 量 化 ， 第 三 ， 
管理 实践 如 何 场 景 化 ， 这 一 块 从 2016 年 开始 一 直 想 在 推 ， 百 度 的 HR 都 来 自 大 
企业 ， 在 百度 也 都 有 很 多 丰富 的 实践 ， 这 些 实践 如 何在 系统 埋 点 ， 如 何 去 落 地 、 
沉淀 都 会 对 未 来 大 数据 研究 有 丰富 的 助 益 ， 对 业务 未 来 的 预测 提供 很 大 的 帮助 ; 
第 四 ， 深 入 整合 业务 属性 ， 第 五 ， 流 程 集成 一 站 式 数 据 分 析 服 务 ， 大 数据 有 助 于 
完善 流程 ， 这 是 一 个 螺旋 循环 上 升 迭 代 的 过 程 (图 4-16) 。 


图 4-16 ”人 力 资源 大 数据 平台 构建 实施 步骤 


人 力 资 源 大 数据 应 用 案例 
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百度 的 人 力 资源 大 数据 平台 


百度 人 力 资源 大 数据 发 展 阶段 


百度 人 力 资源 数据 分 析 经 过 HR 与 IT 团队 的 共同 探索 与 实践 ， 在 过 去 近 10 
年 的 发 展 历程 中 经 过 几 次 关键 迭代 更 新 ， 逐 渐 发 挥 越 来 越 多 的 作用 与 价值 。 其 中 
最 为 瞩目 的 当 属 2014 年 开始 的 利用 大 数据 助力 战略 与 业务 的 改造 一 一 建立 了 从 
员工 “工作 、 生 活 、 学 习 、 发 展 ” 的 完整 服务 生态 圈 ， 在 提供 高 度 自动 化 服务 的 
基础 上 ， 利 用 大 数据 挖掘 的 方式 建立 起 来 的 才 报 在 人 才 和 组 织 管理 上 为 业务 提供 
科学 的 决策 支持 ， 让 HR 拥有 更 高 的 战略 视野 ， 为 业务 发 展 及 人 才 战 略 规划 注入 
新 的 价值 。 

数据 分 析 的 进 阶 必然 伴随 着 信息 系统 的 不 断 升级 改造 而 迭代 进行 ， 同 时 大 数 
据 思维 的 推广 与 大 数据 技术 的 应 用 ， 也 要 求 信息 系统 不 断 升 级 、 查 缺 补漏 、 数 据 
埋 点 、 流 程 再 造 与 优化 ， 这 是 个 螺旋 迭代 上 升 的 过 程 。 

百度 人 力 资 源 管理 信息 系统 经 历 了 几 个 阶段 的 欠 代 发 展 ， 而 这 个 过 程 也 是 数 
据 分 析 与 才 报 逐步 演变 的 历程 。 


1. 1.0 时 代 关 键 词 : 静态 、 结 果 


2011 年 以 前 ， 百 度 eHR 为 1.0 PC 时 代 ， 主 要 承担 工资 核算 、 入 离职 等 基础 
事务 性 、 流 程 性 的 工作 ，“ 员 工 过 来 找 你 ， 需 要 一 个 结果 ， 所 有 的 东西 基本 上 是 
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静态 的 流程 ， 点 对 点 解决 ， 最 后 达成 结果 就 行 了 ，HR 处 于 一 个 很 被 动 的 状态 。” 
此 时 的 数据 基本 处 于 简单 分 析 阶 段 ， 多 为 单 维度 分 析 标 准 报告 ， 集 团 要 数据 需要 
汇总 多 处 的 数据 ， 维 度 也 不 尽 相 同 ， 耗 时 耗 力 ， 最 终 达 到 的 结果 也 不 尽 如 人 意 ， 
报表 时 常 被 老板 挑战 。 


2. 2.0 时 代 关 键 词 : 过 程 、 动 态 


2012 一 2014 年 为 eHR 2.0 移动 互联 时 代 ， 除 了 事务 性 、 流 程 性 的 工作 ， 在 员 
工 管理 上 更 看 重 全 流程 生命 周期 管理 : 在 人 才 管 理 、 组 织 文化 、 服 务 平 台 、 数 据 
支撑 4 个 层面 夯实 基础 、 精 耕 细 作 ， 注 重 协同 与 创新 ， 打 造 互 联 互通 的 更 贴 合 业 
务 的 系统 。 具 体 到 数据 层面 ， 标 配 报表 已 经 不 能 满足 业务 要 求 ， 开 始 建立 自己 的 
数据 平台 ， 包 括 多 维度 分 析 BI、BIEE、EPS 等 分 析 工 具 与 系统 。“ 一 名 员工 在 
入 职 之 前 、 离 职 之 后 ， 以 及 在 公司 的 工作 过 程 中 ， 我 们 对 其 进行 数据 挖掘 ， 然 后 
分 析出 报表 。” 通 过 报表 数据 可 观测 组 织 的 健康 状态 。 之 后 2.0 时 代 还 经 历 了 
多 次 小 步 快 跑 和 迭代 ， 开 始 提供 更 加 智能 化 、 个 性 化 的 报表 ， 并 引入 移动 化 自助 
服务 等 。 


3. 3.0 Smart HR 关键 词 : 大 数据 、 互 动 、 业 务 价值 


2014 一 2016 年 为 eHR 3.0 Smart HR 时 代 , 在 业务 转型 和 高 速 扩张 的 环境 下 ， 
百度 需要 HR 从 组 织 资本 和 人 力 资本 的 角度 协助 业务 决策 ，HR 工作 重点 开始 提 
升 至 为 业务 产生 价值 一 一 在 此 期 间 不 断 探 索 与 实践 ， 逐 步 建立 起 了 大 数据 平台 才 
报 ， 通 过 更 具 交 互 性 的 系统 ， 利 用 大 数据 预测 、 控 制 和 分 析 组 织 变革 和 人 才 发 展 

( 表 5-1) 。 


表 5-1 百度 eHR 发 展 各 时 代 对 比 


HR HR 业务 
g 届 | 内 窜 侧重 点 | 角度 | RR | HR | 业务 
10 时 代 | 工 次 和 发 用, 入 亢 职 (事务 性 | 结果 | 部 态 | 被 动 | 低 | 小 


2.0 时 代 | 全 流程 生命 周期 管理 多 维 分 析 报表 | 过 程 | 动态 | 较 主动 | 较 高 | 较 大 

3.0 时 代 | 大 数据 助力 战略 与 业务 价值 | 互动 | 主动 | 高 大 
百度 人 力 资源 系统 与 数据 的 每 一 次 迭代 优化 都 与 HR 在 组 织 中 的 状态 、 地 位 

以 及 采取 的 服务 角度 息息相关 。“ 组 织 的 业务 需求 达到 一 定 程度 ，HR 自然 而 然 
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就 能 达到 这 样 的 状态 。” 


“ 才 报 ” 支持 的 4 个 角色 


“ 才 报 ”价值 实际 上 服务 于 4 类 角色 ， 一 是 对 高 管 ; 二 是 对 经 理 ; 三 是 对 员 
工 ; 四 是 对 HR 自己 (图 5-1) 。 对 高 管 我 们 打造 一 图 在 手 ， 人 才 信息 尽 在 掌握 ; 
一 表 在 手 ， 数 据 分 析 提 供 决 策 建议 ;预警 人 力 管理 的 红绿灯 。 对 经 理 来 讲 ， 他 们 
在 业务 一 线 不 可 能 投入 太 多 精力 关注 人 员 的 日 常 管理 ， 我 们 的 系统 最 好 能 一 键 到 
位 提供 及 时 的 服务 ， 聚 焦 业 务 ， 流 程 、 审 批 化 繁 为 简 ， 操 作 简便 ， 提 升 用 户 体验 。 
对 员工 来 讲 ， 工 作 、 学 习 、 文 化 、 生 活 四 位 一 体 ， 把 工作 做 好 ， 随 时 随地 碎片 化 、 
游戏 化 学 习 ， 得 到 周到 、 温 馨 、 便 捷 、 有 效 的 共享 服务 。 对 HR 自己 也 有 要 求 ， 
建立 统一 的 工具 知识 库 ， 打 造 有 战斗 力 ， 不 断 创新 的 HR 团队 。 

另外 还 有 更 高 的 要 求 ， 我 们 怎样 提供 更 多 的 价值 输出 ? 从 价值 的 角度 ， 给 高 
管 一 些 预测 性 的 决策 建议 ;给 经 理 场 景 化 的 智能 操作 、 让 经 理 更 聚焦 在 业务 一 线 
战斗 ， 对 员工 小 温馨 大 体验 ， 对 HR 自己 要 学 会 赋 能 与 引领 。 


> 一 图 在 手 ， 人 才 信 息 尽 在 掌握 
对 高 管 > 一 表 在 手 ， 数 据 分 析 供 决 策 建 议 | | > 预测 规划 人 才 战 略 地 图 
> 预警 ， 人 才 管 理 的 红绿灯 


对 经 理 > 流程 、 审 批 化 繁 为 简 ， 聚 焦 业 务 | | > 场景 化 的 智能 操作 ， 让 
> 操作 简便 ， 提 升 用 户 体验 经 济 更 聚焦 业务 


> 随时 随地 碎片 化 、 游 戏 化 学 习 
对 员工 人 温馨 、 便 捷 、 > 小 温馨 大 体验 


> 建立 统一 的 工具 /知识 库 
对 HR 打造 有 战 半 力 的 、 不 断 创新 的 HR ne 传播 公司 


5-1 “ 才 报 ” 平 台 的 服务 对 象 : HR+M 层 


对 团队 、 组 织 来 讲 ， 有 三 棵 树 ， 组 织 树 、 汇 报关 系 树 、 产 品 树 。 无 论 是 横 看 
还 是 纵 看 , 重要 的 是 以 业务 为 导向 。 产品 树 就 是 在 老板 关注 的 业务 、 产 品 方向 上 ， 
怎么 去 打通 ， 让 他 了 解 业 务 、 产 品 的 发 力 点 和 竞争 对 手 在 哪儿 。 

人 才 层 面 ， 有 个 人 人 全景、 工程师 画像 ， 通 过 标签 化 的 形式 重新 定义 员工 客观 
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面貌 ， 同 时 还 有 两 张 表 去 展示 绩优 、 淘 汰 。 
业务 层面 ， 会 和 财务 、 产 品 等 对 接应 用 场景 ， 同 时 结合 行业 内 外 的 数据 ， 给 
内 部 HR 提供 参考 ， 更 重要 的 是 预警 预测 。 


“ 才 报 ”系统 的 数据 挖掘 与 分 析 


“ 才 报 ” 系 统 背 后 的 数据 挖掘 与 分 析 建 立 在 一 套 指标 体系 的 基础 上 ， 这 套 指 
标 体系 由 人 才 管 理 、 运 营 管理 、 组 织 效 能 、 文 化 活力 、 与 情 分 析 5 大 维度 的 200 
多 个 指标 组 成 ,涵盖 了 人 和 组 织 的 分 析 维 度 以 及 所 有 HR 职能 的 衡量 维度 。 其 中 
人 才 管 理 和 运营 管理 的 指标 涉及 更 多 的 是 HR 职能 的 分 解 ， 文 化 活力 与 与 情 分 析 
的 指标 更 多 是 通过 大 数据 方式 分 析 内 外 部 因素 ， 组 织 效 能 的 指标 由 组 织 发 展 部 负 
责 ， 通 过 组 织 发 展 工具 提取 不 同业 务 团 队 的 有 关 组 织 目标 。 整 套 指标 体系 建设 以 
及 迭代 优化 历时 一 年 ，HR 与 IT 团队 共同 参与 推进 。 


1. “ 才 报 ”数据 呈现 


在 用 户 端 ，“ 才 报 ” 主 要 从 团队 、 人 才 、 业 务 、 行 业 4 大 模块 加 以 呈现 ， 不 
同 层级 的 员工 拥有 相应 的 数据 权限 。 

团队 模块 面向 经 理 及 以 上 层级 管理 者 开放 ， 主 要 展示 辅助 团队 管理 的 相关 数 
据 和 信息 。 

人 才 模 块 是 员工 大 数据 画像 呈现 平台 ， 普 通 员工 可 搜索 到 公司 内 任何 员工 ， 
查看 其 职业 路 径 、 人 才 标 签 、 大 数据 画像 等 基础 信息 。 对 于 经 理 及 以 上 人 员 ， 除 
了 基础 信息 ， 他 们 还 可 在 系统 上 进行 如 为 所 属 团队 员工 增 减 人 才 标签 、 员 工 之 间 
比较 等 诸多 人 才 管 理 层面 的 操作 。 

业务 模块 更 多 涉及 个 人 、 团 队 的 业务 目标 以 及 达成 情况 的 展示 。 

行业 模块 呈现 的 则 是 系统 通过 大 数据 抓 取 的 行业 资讯 。 

具体 如 图 5-2 与 图 5-3 所 示 。 
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图 5-3 ”个 人 全 景 示例 
5 “ 才 报 ” 的 “数据 中 心 ” 


除了 4 个 分 析 模 块 ， 系 统 中 还 有 一 个 “数据 中 心 ”， 用 户 可 在 上 面 查看 、 定 
制 权 限 范围 内 的 各 种 数据 分 析 内 容 。 

(1) 分 析 内 容 定制 化 : 用 户 可 从 组 织 、 层 级 序列 、 司 龄 年 龄 、 学 历 雇主 、 
员工 类 型 、 汇 报 层级 、 管 理 幅度 、 绩 效 分 档 等 不 同 的 维度 对 数据 分 析 进 行 跨 模块 、 


第 五 章 ”人 力 资源 大 数据 应 用 案例 | 183 


定制 化 的 组 合 。 例 如 对 于 关键 人 才 的 流动 ， 用 户 可 以 查看 不 同 层级 人 员 的 流动 情 
况 ， 也 可 以 从 年 份 、 部 门 、 业 务 等 不 同 角 度 分 析 ， 观 察 人 才 流 动 与 迁徙 的 状况 。 

(2) 呈现 内 容 定制 化 : 用 户 可 在 系统 首页 、“ 数据 中 心 ”， 根 据 自身 需要 ， 
选择 、 组 合 信息 分 析 和 呈现 的 内 容 〈 图 5-4) 。 


[zs | A 和 wt | m2 BSE 


2016 ] 2015 TT 2014 by 体系 by 业务 by 部 门 } 
跨 体 系 调动 总 览 跨 部 门 调动 总 览 
120 120% 120 120% 
100 . 1.00% 100 100% 
80 080% go O86 
60 060% 60 0606 
40 040% 40 040% 
20 a 020% 20% 020% 


0 000% 
由 1 月 2 月 3 月 4 月 5 月 6 月 7 月 8 月 9 月 10 月 11 月 7 1 月 2 月 3 月 4 月 5 月 6 月 7 月 8 月 9 月 10 月 11 月 12 月 
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图 5-4 某 HRBP 的 数据 中 心 页 面 
(3) 呈现 方式 定制 化 ， 所 有 的 分 析 结 果 都 会 通过 数据 可 视 化 的 手段 实时 、 
动态 地 呈现 在 用 户 的 电脑 上 。 用 户 可 以 按照 自己 的 习惯 ， 在 一 定 程度 上 对 分 析 数 
据 的 呈现 方式 进行 设置 〈 卡 片 、 仪 表盘 、 图 表 等 ) 〈 图 5-5 与 图 5-6) 。 


调 入 & 调 出 升 职 & 降 职 
四 本 年 度 人 数 。 看 同期 人 数 加 加 本 年 度 人 数 。 要 同期 人 数 


图 5-5 仪表 盘 
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图 5-6 大 数据 个 性 化 数据 展示 实例 


在 “ 才 报 ”系统 中 ， 用 户 点 击 分 析 数 据 ， 便 能 看 到 分 析 结 论 的 依据 是 什么 。 
对 人 员 发 展 和 组 织 运 行 至 关 重 要 的 分 析 数 据 (如 人 才 齐 备 率 、 离 职 率 等 ) 都 设 有 
“警戒 线 ”， 系 统 会 通过 红 灯 (警告 ，》、 黄 灯 〈 提 醒 ) 等 直观 的 形式 ， 告 诉 用 户 
当前 组 织 和 个 人 存在 的 问题 。 当 用 户 点 击 这 些 数据 ， 可 看 到 未 来 可 能 发 生 情 况 的 
预测 、 问 题 产生 原因 的 分 析 、 相 应 决策 建议 等 丰富 的 内 容 。 所 有 关键 数据 都 会 在 
系统 首页 快速 提醒 。 


3. 数据 挖掘 与 分 析 示 例 : Peer 推荐 


通常 在 360 度 评估 中 Peer 的 选择 一 般 是 上 级 主管 或 者 HR 来 协助 制定 ， 这 
有 一 定 的 主观 性 。 那 Peer 能 不 能 通过 大 数据 分 析 演 算 经 由 系统 推荐 ? 通过 研究 
分 析 内 部 的 沟通 工具 ， 大 家 的 沟通 频次 、 沟 通 的 时 段 、 邮 件 大 小 、 频 次 等 ， 再 由 
数据 建 模 、 分 析 、 机 器 学 习 、 验 证 等 ， 系 统 可 推荐 出 10 个 工作 关系 紧密 的 人 供 
参考 ， 此 后 主管 或 HR 可 以 从 这 10 个 人 当中 选取 5 一 7 人 当 作 Peer， 既 保证 了 
客观 公正 性 ， 又 有 适度 的 灵活 性 。 当 然 隐私 的 保护 是 必须 的 ， 严 禁 查 看 沟通 交流 
内 容 ， 这 是 红线 〈 图 5-7) 。 
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2 i 
1 :局 权重 Index, 
和 < [iw |- i | “5 (crder<D 
日 志 忆 发 pe 
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(SIndex<1) | 不 同 的 应 用 场 
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图 5-7 数据 挖掘 与 分 析 示 例 : Peer 推荐 


4. 数据 挖掘 与 分 析 示例 : 离职 预测 


核心 人 员 的 离职 预测 ， 是 个 广 受 关注 的 话题 。 那 能 否 通过 建 模 、 机 器 学 习 等 
大 数据 手段 来 提前 预知 哪些 人 可 能 离职 ? 答案 是 肯定 的 ， 通 过 机 器 学 习 ， 找 出 离 
职 因素 的 相关 性 ， 辅 以 管理 实践 判断 ， 可 以 给 出 可 能 性 的 预测 状态 ， 从 而 为 人 才 
保留 或 调配 赢得 时 间 。 

当然 还 有 很 多 领域 可 以 探索 与 实践 ， 例 如 人才 预测 、 与 情 分 析 、 组 织 仿真 等 。 
随 着 大 数据 技术 不 断 地 提高 发 展 ， 以 及 越 来 越 多 的 、 越 来 越 活 的 数据 源 ， 我 们 的 
洞察 也 将 无 限 逼 近 事实 ， 也 将 为 人 力 资源 带 来 更 深 的 影响 ， 为 企业 带 来 更 多 的 
价值 。 

凭借 大 数据 的 挖掘 和 应 用 以 及 全 面 且 高 度 定制 化 的 服务 ， 百 度 HR 在 业务 决 
策 层面 上 的 影响 力 正在 逐渐 扩大 和 加 深 。“ 百 度 HR 大 数据 创新 成 为 公司 决策 的 
基础 ， 而 且 现在 已 经 很 大 程度 上 达到 了 这 样 的 定位 ， 业 务 部 门 已 经 开始 根据 大 数 
据 分 析 结 果 去 做 一 些 人 才 决 策 ， 这 是 非常 大 的 改变 。” 而 这 个 改变 ， 正 是 源 于 百 
度 人 对 科学 、 技 术 的 专注 。 
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5. 数据 挖掘 与 分 析 示 例 : 组 织 健康 度 


组 织 健康 度 是 涉及 人 员 和 组 织 的 一 个 内 涵 丰 富 的 概念 ， 百 度 对 此 界定 了 4 大 
分 析 角 度 ， 分 别 为 贡献 意愿 、 留 任意 愿 、 组 织 创 新 、 核 心 价值 观 ， 每 个 分 析 角 度 
又 细 分 为 多 个 分 析 项 ， 例 如 ， 贡 献 意愿 可 分 为 外 部 推动 力 、 环 境 指示 力 、 工 作 吸 
引力 3 个 分 析 项 。 组 织 健康 度 的 分 析 数 据 来 源 有 两 个 ， 其 一 是 针对 全 员 的 年 度 问 
卷 ， 其 二 是 大 数据 分 析 。 在 大 数据 分 析 层 面 ， 通 过 两 个 情景 介绍 关于 组 织 健康 度 
的 分 析 呈 现 。 

情景 1: 

系统 通过 同比 分 析 ， 发 现 某 个 团队 关键 岗位 的 人 员 齐 备 率 相 比 去 年 同时 段 低 
了 10%， 预 测 此 团队 人 员 不 齐备 、 完 成 团队 目标 有 困难 ， 若 达到 人 员 齐 备 需 要 两 
个 月 时 间 ， 系 统 会 提前 至 少 两 个 月 亮 红 灯 ， 提 醒 团队 负责 人 和 相应 HRBP。 

情景 2: 

系统 检测 到 某 位 工程 师 在 最 近 3 个 月 写 代 码 的 bug 量 比 前 3 个 月 增多 了 一 定 
比例 ， 工 作 效 率 明显 降低 ， 通 过 进一步 的 大 数据 分 析 发 现 产生 问题 的 原因 是 该 工 
程 师 出 于 业务 需要 将 运用 的 程序 语言 从 原来 的 Java 语言 调整 为 C 语言 ， 由 于 技 
能 不 熟练 导致 工作 效率 降低 。 根 据 分 析 结 果 ， 系 统 会 向 此 员工 提出 参加 C 语言 
强化 课程 培训 的 建议 。 


6. 数据 挖掘 与 分 析 示 例 : 差异 化 分 配 


百度 的 HR 大 数据 平台 也 为 百度 实施 “Total Contribution” 人 才 评 价 模型 提 
供 了 实现 基础 ， 在 价值 创造 、 价 值 评 价 、 价 值 分 配 的 闭环 中 ， 正 确 评价 价值 、 合 
理 分 配 价值 ， 全 力 创造 价值 。 百 度 从 2014 年 开始 在 内 部 采取 “去 KPI 化 、 考 核 
Delta” 的 绩效 管理 机 制 ， 将 KPI 完成 情况 作为 充分 参考 的 依据 ， 更 侧重 于 观察 
一 段 时 间 内 员工 为 公司 创造 价值 的 总 量 ， 也 就 是 考察 员工 的 成 果 “ 增 量 ”。 而 对 
员工 创造 价值 的 衡量 和 评价 则 依赖 于 大 数据 平台 强大 的 数据 分 析 能 力 。Delta 人 
才 评 价 机 制 的 实行 对 全 面 提升 百度 人 才 的 创新 意识 、 驱 动人 才 去 打破 限制 、 提 高 
创新 效率 、 扩 大 创新 领域 发 挥 着 积极 作用 ， 这 也 是 百度 HR 在 人 才 、 组 织 管理 上 
的 有 益 作 为 和 强大 优势 。 
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一 一 
第 


二 节 


人 才 雷 达 在 招聘 服务 中 的 应 用 ) 


我 们 知道 ， 互 联网 时 代 ， 每 个 人 都 在 网 络 上 留 下 了 大 量 的 数据 ， 其 中 包含 他 的 
生活 轨迹 、 社 交 言 行 等 个 人 信息 ， 那 么 能 和 否 依靠 对 这 些 数据 的 分 析 ， 从 个 人 的 网 上 
行为 中 和 剥离 出 他 的 兴趣 图 谱 、 性 格 画像 、 能 力 评估 ， 帮 助 企业 更 高 效 地 实现 人 岗 
匹配 呢 ? 这 就 是 基于 数据 挖掘 的 人 才 推 荐 平台 一 一 人 才 和 雷达 所 提供 的 服务 。® 


人 才 雷 达 社 交 体系 


在 人 才 雷 达 网 站 上 ， 每 个 企业 都 会 有 其 内 部 的 账户 系统 ， 人 力 资源 部 招聘 专 
员 可 以 在 平台 上 发 布 空缺 职位 、 招 聘 截止 日 期 和 推荐 成 功 的 奖励 积分 ， 然 后 通过 
人 才 雷 达 ， 搜 索 自 己 员 工 的 社交 人 脉 圈 以 确定 第 一 层级 的 任务 传递 者 ， 这 些 传递 
者 一 般 是 曾经 成 功 推荐 过 该 类 职位 的 企业 内 部 员工 。 为 避免 摇 扰 ， 平 台 推荐 的 第 
一 层级 传递 者 是 5 位， 这 5 位 员工 都 是 基于 人 才 雷 达 对 过 往 推荐 历史 和 员工 社交 
人 脉 进 行 数据 挖掘 后 所 做 的 建议 ， 如 果 招 聘 官 心中 已 经 清楚 地 知道 哪些 员工 更 可 
能 推荐 合格 的 人 才 ， 他 也 可 以 直接 通过 电邮 邀请 。 所 以 ， 第 一 层级 所 邀请 的 5 位 
推荐 者 可 能 有 两 位 是 过 去 的 推荐 人 才 ， 而 另外 3 位 是 通过 数据 挖掘 而 发 现 的 潜在 
推荐 人 才 (图 5-8) 。 


图 5-8 ”人才 雷 达 社交 匹配 演示 


@ 备注 : 本 资料 来 自 36 大 数据 (36dsj.com). http://www.36dsj.com/archives/2854. 
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被 邀请 的 推荐 者 可 以 做 两 件 事 : 

(1) 继续 利用 人 才 雷 达 挖 掘 自 己 的 社交 人 脉 圈 去 锁定 下 一 层级 的 推荐 者 并 
发 出 任务 邀请 ; 

(2) 利用 自己 的 社交 网 络 散布 招聘 信息 ， 帮 助 企 业 扩大 传播 。 

理想 状态 是 每 一 位 任务 传递 者 都 可 以 找到 并 邀请 5 位 下 一 层级 的 任务 传递 
者 ， 那 么 通过 3 层 传递 ， 一 共 可 以 有 155 位 朋友 图 的 人 脉 被 邀请 完成 招聘 推荐 任 
务 。 在 人 才 雷 达 的 推荐 系统 中 ， 其 最 多 传递 层次 被 设 定 为 3 层 ， 其 原因 在 于 ， 在 
社交 网 络 中 ， 从 一 个 人 到 另 一 个 人 的 平均 路 径 是 4.37 个 人 ， 理 论 上 3 层 好 友 关 
系 已 经 能 够 覆盖 全 网 90% 以 上 的 用 户 ， 因 此 ， 通 过 匹配 算法 过 滤 后 的 候选 人 完 
全 能 够 满足 招聘 需求 ， 而 如 果 再 添加 层级 ， 反 而 会 增加 信息 噪声 。 


人 才 雷 达成 功 关 键 


人 才 雷 达 系 统 的 成 功 关 键 就 在 于 ， 受 邀 用 户 可 以 选择 绑 定 自己 的 LinkedIn、 
微 博 、 人 人 等 社交 网 络 账号 ， 让 人 才 雷 达 搜 索引 擎 自动 匹配 和 推荐 用 户 社交 网 络 
中 更 加 适合 所 招 岗位 技能 要 求 的 人 才 ， 并 依照 契合 度 来 进行 推荐 排序 ， 每 一 位 被 
系统 列 出 的 推荐 者 头像 旁 都 会 展现 一 个 9 维 的 人 才 雷 达 图 ， 以 方便 招聘 官 挑选 ， 
这 正 是 “人 才 雷 达 ” 名 称 的 由 来 。 其 核心 技术 是 人 才 搜 寻 模 型 和 匹配 算法 ， 通 过 
对 被 推荐 者 邮箱 、 网 络 ID、Cookie 地 址 等 多 维度 身份 标识 的 匹配 ， 从 9 个 维度 
来 判别 被 推荐 人 的 适合 程度 : 


1. 职业 背景 


利用 文本 挖掘 技术 ， 可 以 从 用 户 的 社交 账户 中 获取 其 教育 经 历 和 从 业经 历 ， 以 
此 来 判定 其 职业 背景 , 甚至 从 高 校 网 站 上 获取 被 推荐 人 的 教育 经 历 、 获 奖 经 历 等 信息 。 


2. 专业 影响 力 


搜索 引擎 采用 Page Rank 来 评估 网 站 的 影响 力 ， 人 才 雷 达 则 利用 Leader Rank 
评估 专业 方向 的 影响 力 。 例 如 ， 被 推荐 者 是 否 有 专业 领域 的 论文 发 表 ， 在 专业 论 
坛 ( 如 Github、CSDN、 知 和平、 丁香 园 等 ) 上 的 发 帖 数 、 内 容 被 引用 数 、 引 用 人 
的 影响 力 等 ， 通 过 这 些 信息 建 模 ， 完 成 其 专业 影响 力 的 判断 。 
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3. 好 友 匹 配 


社交 关系 也 是 判断 一 个 人 职业 能 力 的 因素 之 一 。 所 以 ， 辩 别 用 户 在 社交 网 络 
上 其 好 友 的 专业 影响 力也 是 人 才 雷 达 推荐 系统 中 的 一 个 重点 。 同 时 ， 即 使 被 推荐 
者 的 个 人 能 力 难以 符合 职业 需求 ， 但 如 果 他 有 着 能 力 不 错 的 好 友 关 系 ， 则 也 可 以 
作为 合适 的 “推荐 人 ”将 任务 传播 到 下 一 层级 当中 。 


4. 性 格 匹配 


依据 DISC〈 人 类 行为 语言 ) 学 ， 将 其 在 网 络 上 的 抽象 言行 转换 为 对 应 的 性 
格 特点 。 这 种 匹配 并 不 是 单纯 的 文本 识别 ， 而 是 根据 其 讨论 时 的 反馈 数 ， 言 辞 激 
烈 程度 等 各 种 因素 来 判定 其 性 格 。 


5. 职业 倾向 


不 少 人 自己 希望 追求 的 职业 并 不 一 定 是 其 适合 的 职业 ， 所 以 用 户 在 社交 网 络 
上 的 行为 表现 将 有 助 于 系统 判别 其 对 职业 的 符合 程度 是 否 与 其 个 人 描述 的 职业 愿 
景 相符 。 


6. 工作 地 点 


虽然 不 少 人 在 网 络 上 都 会 填写 个 人 所 在 地 ， 但 由 于 地 点 变迁 等 各 种 问题 ， 
工作 地 点 并 不 一 定 是 其 填写 的 那样 ， 但 根据 其 Cookie 地 址 ， 历 史 填 写 信息 、 
论 等 多 维度 判别 ， 可 以 了 解 该 被 推荐 人 合适 的 工作 地 点 。 


Ia 并 


7. 求职 意愿 


由 于 人 的 兴趣 是 不 断 变化 的 ， 所 以 当 用 户 在 网 络 上 的 言行 有 一 些 明显 暗示 或 
变化 时 ， 可 能 表示 其 将 要 转换 职业 方向 或 离职 。 这 项 技术 曾 被 用 于 联通 用 户 离 网 
意愿 的 检测 。 


8. 信任 关系 


通过 对 用 户 社交 网 络 的 分 析 ， 判 断 出 招聘 者 到 达 用 户 的 最 有 效 关 系 链 和 这 个 
层级 中 用 户 之 间 的 信任 关系 ， 利 用 强 关 系 链 进行 联系 ， 将 更 利于 企业 完成 对 人 才 
的 招聘 。 


190 | 人 力 资源 大 数据 应 用 实践 


9. 行为 模式 


不 同 用 户 在 社交 网 络 上 的 行为 习惯 也 是 不 同 的 ， 例 如 ， 发 微 博 的 时 间 规 律 ， 
在 专业 论坛 上 的 时 间 长 短 ， 这 些 行为 模式 可 以 用 来 辨别 其 工作 时 间 规律 ， 看 其 是 
和 否 符合 对 应 的 职位 需求 。 

通过 以 上 9 个 维度 的 建 模 画 像 ， 人 才 雷 达 不 仅 能 够 在 节省 成 本 的 前 提 下 帮助 
企业 提高 人 才 招 聘 的 效率 。 同 时 ， 与 传统 的 猎头 业务 相 比 ， 其 采用 群体 智慧 的 方 
式 能 够 更 广泛 和 客观 地 筛选 人 才 。 并 且 ， 其 被 动 测量 的 方式 也 能 在 一 定 程度 上 避 
免 直接 面试 时 部 分 求职 者 的 虚假 表现 。 

人 才 雷 达 的 主要 盘 利 模式 是 : 

(1) 租用 模式 ， 给 企业 提供 收费 平台 ， 按 照 公司 规模 收费 。 大 公司 10 
万 一 20 万 元 /年 ， 小 型 公司 一 般 2 万 一 5 万 元 /年 。 

(2) 公司 通过 人 才 雷 达 平 台 招聘 成 功 ， 按 人 次 收取 30% 的 伯乐 费 〈 大 小 
公司 提成 比 一 样 ) 。 

(3) 针对 每 家 客户 定制 部 分 收费 ， 例 如 定制 匹配 算法 和 推荐 模型 等 。 
另外 ， 人 才 雷 达 提供 一 个 月 免费 使 用 。 

国外 类 似 人 才 雷 达 的 公司 包括 ZALP、Jobvite、Zao， 国 内 类 似 的 项 目 包括 
人 人 猎头 、 哪 上 班 、 内 推 网 、 爱 伯乐 、 速 评 网 、 猪 聘 秘书 等 。 

在 求职 招聘 领域 , 从 最 早 大 而 全 的 51jobs 和 智联 招聘 等 平台 , 到 之 后 哪 上 班 、 
内 推 网 等 专注 于 垂直 细 分 领域 的 玩家 ， 可 以 说 ， 在 这 个 市 场 ， 已 经 开始 逐渐 形成 
了 一 个 从 关注 职位 和 求职 者 “数量 ”到 关注 “质量 ”的 过 渡 。 随 着 人 工 和 猎头 费 
用 越 来 越 贵 ， 以 及 各 类 社交 网 络 日 渐 普 及 ， 给 企业 提供 一 个 利用 大 数据 定向 分 析 
和 挖掘 ， 采 用 众 包 模式 的 招聘 平台 ， 满 足 他 们 高 效 + 低 价 的 实际 招聘 需求 ， 未 来 
可 能 是 个 不 错 的 机 会 。 


和 
第 三 


一 了 


谷歌 的 大 数据 人 才 管 理 ) 


谷歌 被 公认 为 全 球 最 大 的 搜索 引擎 ， 业 务 包 括 互联 网 搜索 、 云 计算 、 广 告 技 
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术 等 ， 同 时 开发 并 提供 大 量 基于 互联 网 的 产品 与 服务 。2016 年 6 月 8 日 ，《2016 
年 BrandZ 全 球 最 具 价 值 品 牌 百 强 榜 》 公 布 ， 谷 歌 以 2291.98 亿美 元 的 品牌 价值 
重新 超越 苹果 成 为 百 强 第 一 。2017 年 2 月 ，Brand Finance 发 布 2017 年 年 度 全 球 
500 强 品 牌 榜 单 ， 谷 歌 排名 第 一 。 谷 歌 在 其 业务 领域 一 直 都 是 技术 风向 ， 无 数 用 户 
享受 着 其 开发 的 互联 网 产品 和 提供 的 相应 服务 。 面 对 如 此 庞大 的 用 户 群 体 ， 谷 歌 每 
天 都 会 产生 海量 的 数据 ， 这 为 谷歌 成 为 大 数据 时 代 的 开拓 者 提供 了 便捷 的 条 件 。 


谷歌 用 数据 重新 定义 HR 


在 财政 、 市 场 这 些 领 域 中 ， 人 们 已 经 习惯 于 用 统计 数据 说 话 ， 利 用 数据 作为 
有 力 支 撑 进而 做 出 决策 并 提出 相应 的 解决 方案 。 而 在 人 力 资 源 领域 ， 人 们 更 习惯 
于 用 “经 验 ” 来 做 出 判断 。 但 是 我 们 要 知道 ， 企 业 近 60% 的 可 用 成 本 都 来 自 人 
员 花 费 ， 因 此 采用 基于 数据 分 析 的 方式 来 管理 这 些 涉及 一 大 笔 花 费 的 项 目 是 具有 
重要 意义 的 。 而 谷歌 的 优势 不 仅仅 在 业务 部 门 大 数据 挖掘 的 深入 ， 它 的 成 功 很 大 
一 部 分 取决 于 它 是 世界 上 为 数 不 多 的 运用 数据 导向 来 处 理 人 力 资源 职能 的 企业 。 
这 个 案例 所 带 给 我 们 的 并 非 是 大 数据 背景 下 的 夸 夸 其 谈 ， 而 是 为 谷歌 带 来 了 巨大 
收益 的 有 效 方法 。 据 统计 ， 谷 歌 每 个 员工 平均 每 年 能 够 生成 将 近 100 万 美元 市 值 
的 生产 力 ， 以 及 平均 每 年 20 万 美元 的 利润 。 

谷歌 所 用 的 这 套 人 员 管 理 方法 称 为 “人 事 分 析 ”， 这 种 方法 的 核心 是 将 企业 
中 最 重要 、 最 影响 深远 的 人 员 管 理 决策 进行 精准 化 和 量化 。 如 果 说 业务 运营 、 财 
务 管理 等 决策 可 以 直接 产生 效益 ， 那 么 人 员 管 理 决策 直接 决定 了 是 谁 来 进行 业务 
运营 和 财务 管理 的 决策 。 显 然 ， 如 果 我 们 不 能 选用 能 产生 最 大 效用 的 人 ， 那 么 他 
所 做 出 的 决策 效果 也 会 大 打折 扣 。 

谷歌 的 人 力 资源 管理 究竟 有 什么 特别 之 处 呢 ? 首先 ， 在 大 多 数 企 业 中 ，HR. 
部 门 被 称 为 “人 力 资 源 部 ”， 而 在 谷歌 这 一 部 门 被 称 为 “人 力 运 营 部 ”。 显 然 ， 
谷歌 认为 人 力 资源 的 决策 与 管理 是 需要 强大 数据 支撑 的 ， 它 与 财务 、 市 场 部 门 一 
样 ， 强 调 数据 分 析 决 策 。 这 背后 自然 需要 一 支 专业 且 强大 的 团队 来 完成 ， 谷 歌 的 
“人 事 分 析 团 队 ” 就 是 来 引导 这 些 人 力 资源 管理 决策 的 。 谷 歌 的 人 力 资源 部 门 有 
一 个 由 十 几 名 名 校 统计 博士 组 成 的 分 析 师 队伍 ， 专 门 研究 不 同 的 人 力 资 源 政策 和 
员工 绩效 之 间 的 关联 ， 并 根据 研究 结果 随时 调整 薪资 福利 、 晋 升 制度 等 ， 确 保 员 
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工 队伍 始终 处 在 一 个 良好 的 工作 状态 。 此 外 ， 谷 歌 的 人 力 分 析 团 队 还 包括 来 自 统 
计 、 金 融 、 组 织 心理 学 等 领域 的 博士 们 ， 通 过 这 些 数据 化 、 精 细 化 的 人 力 资源 管 
理 横 式 ， 以 确保 招聘 到 最 佳 求职 者 。 使 用 心理 学 和 数据 分 析 的 方式 分 析 哪 些 员 工 
在 谷歌 能 够 成 功 发 展 ， 哪 些 员工 最 可 能 中 途 离职 等 问题 并 建 模 ， 帮 助 做 出 最 
优 薪 酬 奖 励 决 策 以 最 长 时 间 留 住 顶尖 人 才 等 。 其 研究 成 果 体 现在 智能 化 招聘 、 
打造 多 元 人 ， 这 是 谷歌 人 力 资源 管理 模式 的 核心 内 容 ， 同 时 也 是 谷歌 人 力 运 
营 部 积极 影响 公司 绩效 的 最 有 力 证 明 。“ 人 事 分 析 团 队 ” 所 强调 的 目标 就 是 : 
所 有 的 人 事 决 策 都 是 基于 数据 和 数据 分 析 的 ， 人 事 决 策 所 采用 的 精确 化 水 平 与 项 
目 决策 是 相同 的 。 


攻 E 谷歌 的 10 大 员工 管理 模式 
如 图 5-9 所 示 。 


氧气 ERM 7 保 | 区 本 韦 | 所 2 家 
项 目 ”实验 室 。 ” 留 公式 。 测 模型 。 ”指名 相 


高 效 招 。 ” 优秀 人 才 。 ”环境 设 。 ”提升 学 加 
聘 公式 。 ”绝对 值 计 法 习 机 制 
工 观念 
图 5-9 谷歌 10 大 员工 管理 模式 


1. 氧气 项 目 


“氧气 项 目 ” 通 过 对 大 量 的 内 部 数据 进行 研究 分 析 ， 判 断 杰 出 的 管理 人 应 该 
具备 哪些 特征 ， 从 而 培养 出 优秀 的 经 理 人 。2009 年 ， 谷 歌 对 公司 一 万 多 名 员工 
进行 “什么 样 的 经 理 人 才 是 一 个 好 的 经 理 人 ”的 问卷 及 访谈 。 并 根据 结果 推算 出 
规律 性 的 模式 ， 进 一 步 鉴 别 出 卓 越 领导 者 的 8 大 特性 : 

(1) 成 为 一 个 好 的 教练 ; 

(2) 避免 微 管理 ， 并 且 进 行 充分 的 授权 ; 

(3) 经 理 人 对 团队 成 员 的 成 就 和 心情 保持 着 高 度 的 兴 

(4) 关注 生产 力 ， 用 结果 证 明 一 切 ; 


@@ 谷歌 利用 数据 分 析 重 新 定义 HR. http://www.managershare.com/post/140542. 
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(5) 能 够 成 为 一 个 很 好 的 沟通 者 ; 

(6) 帮助 团队 成 员 去 发 展 他 们 的 职业 生涯 ; 

(7) 为 团队 设置 一 个 明确 的 愿景 和 战略 ; 

(8) 拥有 关键 的 技术 能 力 来 帮助 员工 解决 问题 。 

员工 们 会 每 年 两 次 地 根据 这 8 大 特性 ,对 其 上 司 的 表现 进行 评价 (图 5-10) 。 


回应 外 
体 目标 


图 5-10 谷歌 的 8 大 管理 特征 


2. 人 力 资源 实验 室 


谷歌 通过 进行 应 用 性 的 实验 来 判断 管理 员工 的 最 有 效 方法 并 为 其 提供 所 需 的 
多 种 工作 环境 ， 甚 至 可 以 通过 科学 的 数据 及 实验 ， 减 少 员工 饮食 中 的 卡路里 摄 入 
量 来 促进 员工 的 健康 。 同 时 ， 为 了 最 大 化 地 结合 学 习 、 合 作 及 娱乐 ， 谷 歌 有 意识 
地 设计 别具一格 的 工作 环境 来 提升 不 同 部 门 之 间 的 合作 水 平 ， 而 这 些 精心 的 环境 
设计 与 管理 都 是 在 海量 数据 的 分 析 与 探索 中 实现 的 。 


3. 人 才 保留 公式 


谷歌 借助 自己 开发 的 一 个 数学 算法 ， 可 以 成 功 地 预测 到 哪些 员工 很 有 可 能 会 
离职 ， 并 为 员工 留任 提供 个 性 化 解决 方案 的 空间 (图 5-11) 。 


只 
Ta 


国 离职 率 = 离 职 人 数 /[ (期 初 人 数 + 期 本 人 数 ) /2]*100% 

园 招聘 达成 率 = 〈 报 到 人 数 + 待 报到 人 数 ) /计划 增补 人 数 + 临时 增补 人 数 ) 
图 新 进 员工 比率 = 已 转正 员工 数 /在 职 总 人 数 

图 补充 员工 比率 = 为 离职 缺口 补充 的 人 数 /在 职 总 人 数 

图 人 员 流动 率 = (员工 进入 率 + 离 职 率 ) /2 


图 5-11 谷歌 的 HR 人 才 管理 公式 
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4. 人 才 管 理 预测 模型 


谷歌 的 人 事 管 理 是 具有 前 瞻 性 的 。 它 开发 了 一 个 预测 模型 并 运用 有 效 分 析 进 
一 步 加 强 对 未 来 人 事 管理 问题 的 预测 。 


5. 人 才 多 样 性 管理 


与 大 多 数 公 司 不 同 的 是 ， 谷 歌 公 司 运用 数据 分 析 来 处 理 员工 多 样 性 问题 。 从 
结果 来 看 ， 人 员 分 析 团 队 运用 数据 分 析 来 鉴定 人 员 (尤其 是 对 于 女性 员工 ) 招聘 、 
留任 和 升 职 板块 薄弱 的 本 质 原因 。 


6. 高 效 招聘 公式 


作为 少数 按照 科学 的 方法 进行 招聘 的 企业 之 一 ， 谷 歌 公 司 开发 了 一 个 算法 来 
预测 应 聘 者 在 获 聘 后 是 否 具有 最 佳 生产 力 。 谷 歌 公司 的 研究 也 会 鉴别 面试 背后 所 
隐 含 的 价值 ， 显 著 地 缩短 聘请 员工 的 周期 。 

在 部 分 项 目 中， 谷歌 针 对 每 类 工作 员工 招聘 开发 了 一 个 算法 ， 用 于 分 析 被 拒 
绝 的 简历 ， 分 辨 出 任何 他 们 可 能 错过 的 卓越 的 应 聘 者 。 他 们 发 现 他 们 仅 有 1.5% 
错失 率 ， 重 新 审视 候选 人 后 ， 他 们 最 终 聘请 了 其 中 的 一 部 分 。 


7. 优秀 人 才 的 绝对 值 


谷歌 统计 过 优秀 的 技术 专家 与 处 于 平均 水 平 的 技术 员 之 间 的 行为 差异 。 为 了 
检验 优秀 人 才 的 价值 ， 高 管 们 会 利用 必要 的 资源 去 聘请 、 留 下 卓越 人 才 ， 并 进 一 
步 发 展 员工 的 卓越 才能 。 

谷歌 最 不 为 人 知 的 秘密 是 谷歌 的 人 力 运营 部 专业 人 员 会 整理 各 行 各 业 最 佳 
“商业 案例 ”， 这 是 他 们 能 够 获得 如 此 卓越 的 行政 支持 的 主要 原因 。 


8. 工作 环境 设计 对 部 门 合作 影响 


谷歌 特别 关注 于 提升 不 同 职能 部 门 的 员工 之 间 的 合作 水 平 。 谷 歌 发 现 这 需要 
进行 三 个 方面 的 变革 : 学 习 、 合 作 以 及 娱乐 。 

因此 , 谷歌 有 意识 地 设计 它 的 工作 环境 用 来 最 大 化 地 结合 学 习 、 合 作 与 娱乐 。 
甚至 追踪 员工 们 在 咖啡 厅 所 花费 的 时 间 。 对 于 一 些 公司 来 说 ， 设 计 “ 娱 乐 ” 环 节 
看 起 来 可 能 是 奢侈 的 ， 但 是 数据 显示 “娱乐 ”是 人 际 吸 引 、 人 员 留 任 和 员工 合作 
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中 的 关键 因素 。 
9. 提升 发 现 和 学 习 机 制 


相 比 于 将 目光 集中 在 传统 的 室内 学 习 ， 现 在 企业 更 加 强调 在 实践 中 学 习 。 
谷歌 通过 循环 式 学 习 、 从 失败 中 学 习 ， 甚 至 邀请 类 似 美国 前 总 统 Al Gore 和 歌手 
Lady Gaga 等 人 来 演讲 ， 从 而 提升 员工 发 现 与 学 习 的 契机 。 自 主 学 习 能 力 以 及 适 
应 力 都 是 谷歌 员工 的 核心 胜任 力 。 


10. 用 数据 影响 员工 


谷歌 人 员 分 析 团 队 成 功 的 最 后 一 项 关键 要 素 并 不 是 发 生 在 分 析 过 程 中 ， 而 是 
体现 在 给 高 管 们 和 管理 者 的 最 终 建 议 书 上 。 相 比 于 用 要 求 或 胁迫 的 方式 令 管 理 者 
接受 变革 ， 它 借助 内 部 的 顾问 和 高 影响 力 的 人 基于 强大 的 数据 以 及 所 呈现 的 行为 
来 说 服 员工 。 


第 四 节 , 
腾讯 HR 的 大 数据 实践 ) 


大 数据 不 是 个 新 鲜 字 眼 ， 然 而 在 人 力 资源 领域 还 是 刚刚 起 步 。 我 们 从 平台 建 
设 、 连 接 效 能 和 方向 牵引 这 三 个 方面 简单 介绍 腾讯 在 HR 大 数据 领域 的 探索 经 验 ， 
这 样 的 企业 、 这 样 的 实验 对 于 未 来 的 应 用 有 着 极其 重要 的 参考 价值 ， 值 得 我 们 琢 
磨 和 思考 。HR 要 提升 岗位 价值 ， 显 化 工作 效益 ， 为 公司 战略 提供 决策 依据 ， 数 
据 分 析 和 转化 更 是 不 可 或 缺 。” 


HR 的 大 数据 功能 


搜索 一 下 “HR+ 大 数据 ”， 可 以 轻松 得 到 几 百 万 条 记录 ， 可 见 大 数据 在 HR 
领域 并 不 是 一 个 陌生 的 话题 ， 遗 憾 的 是 ， 热 度 有 余 而 深度 不 足 。 北 大 光华 的 穆 胜 


@ 备注 : 此 资料 来 源 于 环球 人 力 资源 库 . http://www.hr.com.cn/p/1423415427 
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博士 在 其 写 的 《大 数据 为 何 走 不 进 人 力 资源 管理 ? 》 一 文中 提出 “HR 可 能 误会 
了 大 数据 ”，HR 的 大 数据 需要 有 自己 的 玩法 ， 其 不 同 于 传统 的 HR 数据 分 析 的 
功能 ， 可 以 概括 为 三 个 方面 。 


1. 养 成 平台 的 能 力 


大 数据 的 特征 概括 为 4V, Volume (大 量 )、Velocity (高 速 )、Variety (多 样 性 )、 
Veracity (真实 性 ) 。 这 也 决定 HR 的 大 数据 绝 不 仅仅 是 把 一 些 数据 拿 过 来 分 析 ， 
而 是 一 个 涵盖 数据 的 产生 、 存 储 、 抓 取 、 清 理 、 分 析 、 挖 气 、 建 模 、 训 练 、 验 证 、 
呈现 的 全 过 程 的 综合 平台 。 


2. 要 有 连接 的 效能 


与 传统 的 数据 分 析 只 需要 得 出 一 个 数据 性 的 管理 结论 不 同 ，HR 的 大 数据 分 
析 包 括 提出 概念 、 分 析 框 架 、 数 据 准 备 、 数 据 清理 、 数 据 挖掘 、 模 型 创建 、 训 练 
验证 以 及 管理 行动 ， 其 过 程 充分 卷 入 了 HR 三 支柱 的 COE、BP 和 SDC， 乃 至 于 
管理 者 和 员工 ， 其 目标 是 推动 HR 管理 的 持续 改善 。 


3. 能 够 牵引 HR 的 方向 


传统 的 数据 分 析 多 是 事后 的 总 结 ， 是 一 种 滞后 的 管理 。 而 HR 的 大 数据 分 析 
则 要 求 能 够 帮助 HR 进行 预测 ， 实 现 前 置 的 管理 。 
例如 ， 传 统 的 人 力 资源 通过 绩效 管理 来 识别 高 绩效 的 员工 并 帮助 员工 持续 提 
升 绩效 ， 而 在 大 数据 模式 下 的 思路 则 是 通过 数据 的 挖掘 找到 高 绩效 员工 的 特征 要 
素 ， 让 企业 的 每 一 个 员工 都 能 够 持续 产生 高 绩效 。 
由 于 多 数 企业 在 HR 的 数据 领域 缺乏 规划 ， 要 实现 上 述 突 破 对 HR 部 门 而 言 
将 是 一 个 漫长 而 艰难 的 过 程 。 
腾讯 在 HR 领域 的 大 数据 实践 最 早 可 以 追溯 到 2012 年 ， 通 过 People Soft 搭 
建 起 了 HR 的 统一 结果 库 ， 并 开展 了 第 一 期 的 数据 清理 工作 。 
(1) 腾讯 的 HR 大 数据 平台 由 应 用 层 、 功 能 层 以 及 团队 三 个 部 分 组 成 。 
(2) 应 用 层 主要 解决 HR 大 数据 如 何 支 撑 HR 业务 的 问题 ， 阐 述 的 是 大 数 
据 的 应 用 场景 ， 以 及 需求 如 何 被 响应 和 落地 。 
(3) 功能 层 主要 解决 HR 大 数据 在 后 台 如 何 运 作 的 问题 ， 曾 述 的 是 如 何 去 
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科学 地 管理 和 使 用 数据 ， 保 障 数据 的 质量 和 价值 ， 包 括 元 数据 管理 、 数 据 质 量 管 
理 和 逻辑 建 模 规 划 三 大 核心 模块 。 

(4) 从 应 用 层 和 功能 层 我 们 可 以 看 到 HR 的 大 数据 涉及 了 HR 专业 以 外 的 
IT 系统、 数据 库 、 数 据 分析 、 产 品 设计 等 多 个 专业 ， 这 也 意味 着 仅 赁 专业 的 HR 
是 无 法 搭建 起 HR 的 大 数据 平台 的 。 

以 腾讯 SDC 的 大 数据 团队 为 例 ， 其 成 员 由 SSC、eHR、 区 域 中 心 的 员工 共 
同 组 成 ， 是 一 个 拥有 人 力 资源 、HR 信息 化 、 数 据 库 、HR 咨询 复合 工作 经 验 和 
背景 的 团队 。 


天 由 典型 项 目 案例 


1. 大 数据 与 HR 三 支柱 结合 


该 项 目 由 COE 最 先 提 出 概念 ， 先 后 卷 入 BP 和 SDC， 迅 速成 立 了 项 目 联合 
团队 。 其 中 COE 团队 负责 政策 、 资 源 的 协调 以 及 专业 方向 的 把 控 ，BP 团队 负责 
模型 验证 以 及 落地 研究 ，SDC 团队 则 负责 数据 清理 、 质 量 建设 、 特 征 挖 气 以 及 
模型 的 搭建 和 训练 。 在 这 个 项 目 中 ,不仅 COE、BP 和 SDC 的 人 被 连接 起 来 ， 
同时 连接 的 还 有 对 应 的 “ 事 ” 和 “信息 ”。 


2. 大 数据 评估 员工 稳定 性 


传统 的 HR 数据 分 析 会 围绕 离职 率 展 开 分 析 ， 而 在 HR 的 大 数据 分 析 中 则 是 
将 腾讯 历史 上 所 有 的 员工 按照 稳定 程度 分 成 多 个 样本 ， 通 过 数据 的 挖掘 找到 与 稳 
定性 相关 的 典型 特征 ， 建 立 起 能 够 识别 候选 人 稳定 性 的 数学 模型 。 其 目标 之 一 是 
希望 通过 应 聘 者 的 简历 自动 对 其 稳定 性 给 出 评估 建议 ， 也 为 后 续 招 聘 以 及 保留 环 
节 提 供 参 考 。 


ER 腾讯 HR 大 数据 的 启示 


1. 从 现在 开始 ， 夯 实数 据 基础 
以 腾讯 的 某 个 HR 大 数据 项 目 为 例 ， 一 次 调用 的 数据 就 超过 了 600 万 条 ， 
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400 多 个 字段 ， 一 般 的 PC 机 以 及 Excel、Spss 等 工具 都 无 法 支撑 此 种 量 级 的 数据 
挖掘 ， 但 是 其 量 级 又 达 不 到 使 用 TDW 的 程度 ， 加 上 数据 敏感 性 等 诸多 因素 ， 最 
终 发 现 需要 搭建 用 于 HR 大 数据 分 析 的 服务 器 。 


2. 数据 质量 决定 数据 的 价值 


涂 子 沛 在 《大 数据 》 一 书 中 用 了 整整 一 个 章节 来 曾 述 数据 质量 ， 足 见 数据 质 
量 的 重要 性 。 


3. 挖掘 数据 而 不 是 统计 数据 


仅 从 统计 学 的 方法 上 看 就 可 以 看 到 差别 ， 传 统 的 HR 数据 分 析 用 的 最 多 的 统计 
方法 就 是 描述 统计 、 箱 型 图 等 。 但 是 到 了 HR 的 大 数据 分 析 ， 相关 性 分 析 、 方差 分 析 、 
回归 分 析 、 聚 类 分 析 、 决 策 树 模型 等 用 的 会 更 多 。 其 原因 就 像 维克托 。 迈 尔 - 舍 恩 
伯 格 在 其 《大 数据 时 代 》 中 强调 的 ， 大 数据 研究 的 “不 是 因果 关系 ， 而 是 相关 关系 ”。 

对 于 企业 的 HR 而 言 ， 当 HR 遇 上 大 数据 ， 我 们 更 应 该 抓 住 这 个 机 会 ， 在 大 
数据 平台 能 力 、 连 接 的 效能 、 牵 引 HR 方向 这 三 个 方面 寻求 突破 ， 进 行 创新 性 的 
研究 和 探索 ， 提 升 HR 之 于 企业 的 价值 和 影响 力 。 

最 后 借用 名 言 : “It was the best of times，it was the worst of times.”AI 时 代 
带 给 HR 的 不 仅仅 有 挑战 ， 同 样 也 有 机 会 。 亦 如 郭 重庆 院士 所 言 ，“ 管 理学 界 应 
该 抓 住 这 个 机 会 ， 实 现 自己 的 历史 使 命 和 担当 。” 


第 五 节 \ 


猎 聘 薪酬 大 数据 实践 ” ) 


攻 马 猎 聘 为 什么 要 做 薪酬 数据 库 
近年 来 ， 国 内 企业 人 力 资源 管理 水 平 不 断 提升 ， 很 多 企业 的 人 力 资源 管理 理 


@ 备注 : 资料 来 源 于 猎 聘 全 国 薪酬 数据 研究 中 心 . 
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念 也 已 经 从 传统 的 事务 性 操作 逐渐 转变 为 面向 业务 的 人 才 管 理 ， 人 力 资源 部 门 不 
再 作为 简单 的 职能 部 门 存在 ， 而 是 需要 为 决策 提供 更 多 的 支持 和 针对 性 建议 ， 甚 
至 参与 到 公司 决策 。 在 工作 内 容 上 ， 人 力 资源 管理 从 业务 流程 的 管理 和 操作 角色 ， 
逐步 转变 为 企业 人 才 管 理 顾 问 的 角色 ， 数 据 化 的 分 析 与 运用 、 科 学 合理 地 优化 人 
才 体系 、 设 计 人 才 管 理 策略 成 为 了 更 重要 的 工作 内 容 。 

猎 聘 是 目前 国内 最 大 的 企业 、 猎 头 和 职业 经 理 人 三 方 互动 的 平台 ， 除 了 帮助 
企业 招 人 、 帮 助 个 人 推荐 靠 谱 工 作 之 外 ， 也 在 不 断 地 积累 人 力 资源 相关 的 知识 
和 经 验 ， 加 上 平台 上 3000 万 用 户 和 50 万 企业 的 数据 积累 ， 大 数据 和 人 力 资 源 
这 两 个 属性 的 结合 ， 让 猫 聘 也 有 了 更 多 的 责任 ， 帮 助 企 业 提升 人 力 资源 管理 水 
平 。 这 两 年 猎 聘 也 不 断 运用 大 数据 技术 ， 检 测 人 才 变 化 情况 和 供求 规律 ， 为 企 
业 人 力 资 源 从 业者 、 企 业 管理 者 ， 甚 至 是 城市 管理 者 制定 人 才 策 略 提供 宏观 参 
考 信息 。 

而 在 企业 人 力 资源 管理 实 操 上 ， 猫 聘 选择 薪酬 这 个 模块 开始 企业 数据 化 管理 
提升 之 路 。 薪 酬 也 是 HR 朋友 们 比较 关注 的 点 ， 从 招 人 、 留 人 的 付 薪 ， 到 业务 上 
的 薪酬 体系 的 搭建 、 薪 酬 结构 的 设计 ， 还 有 每 年 的 调 薪 政策 ， 都 是 和 薪酬 有 关 的 ， 
而 且 员 工 对 薪酬 的 满意 度 也 是 员工 考虑 是 否 跳 槽 的 主要 因素 。 猫 聘 的 薪酬 数据 库 ， 
为 HR 在 定 薪 、 调 薪 等 工作 中 提供 数据 支持 。 


ER 为 何 说 猎 聘 的 薪酬 数据 库 与 众 不 同 


做 一 个 好 的 薪酬 产品 ， 需 要 好 的 团队 ， 不 同 于 一 般 的 互联 网 产品 ， 薪 酬 数据 
库 的 研发 和 设计 除了 需要 良好 的 互联 网 思维 外 ， 更 需要 对 人 力 资源 管理 的 深刻 理 
解 。 最 终 ， 猎 聘 薪 酬 团队 吸纳 了 国内 外 知名 人 力 资源 管理 咨询 公司 的 资深 咨询 顾 
问 和 顶尖 院 校 企业 管理 研究 机 构 的 专家 一 同 设计 了 这 款 不 一 样 的 薪酬 产品 。 

其 实 薪酬 产品 市 场 上 有 很 多 ， 很 多 管理 咨询 公司 和 市 场 调 研 公司 都 在 做 
这 方面 的 工作 ， 通 常 是 邀请 企业 参与 薪酬 调研 ， 通 过 问卷 、 访 谈 等 方式 获取 
企业 薪酬 及 其 他 人 力 资源 管理 相关 信息 ， 然 后 汇总 统计 并 进行 分 析 ， 最 终 呈 
现行 业内 不 同 岗位 的 薪酬 数据 。 这 是 一 种 传统 的 薪酬 调研 方式 ， 而 猫 聘 的 薪酬 
数据 库 则 采用 了 完全 不 同 的 “数据 + 咨询 ”的 方法 论 和 呈现 效果 ， 如 图 5-12 与 
图 5-13 所 示 。 


200 | 人 力 资源 大 数据 应 用 实践 


数据 省 咨询 
样本 筛选 ， 去 粗 取 精 数据 维护 ， 定 期 更 新 
不 
里 
特征 训练 ， 提 炼 标签 专家 调研 ， 顾 问 验 证 
未 
时 
简历 分 类 ， 薪 岗 匹 配 ” 一半 统计 推断 ， 非 参 检验 


图 5-12 ” 猎 聘 薪酬 数据 库 的 “数据 + 咨询 ”的 方法 论 


猫 聘 薪酬 数据 库 传统 薪酬 报告 产品 


调研 模式 | 运用 大 数据 技术 ， 对 猫 聘 3000 万 用 户 | 目标 企业 接受 薪酬 调研 邀请 后 ， 参 与 填写 薪 
数据 分 析 ， 取 活跃 用 户 数据 分 析 形成 | 酬 调研 问卷 ， 通 过 分 析 问 卷 形 成 薪酬 报告 


数据 广度 | 3000 万 职业 经 理 人 用 户 人 质数 据 。 | 数 二 到 数 下 家 不 等 ， 参 与 调研 问卷 的 企业 所 


报告 时 效 | 与 市 场 接轨 ， 定 期 更 新 制作 需 6 一 10 个 月 ， 无 后 续 更 新 
呈现 方式 | 网 站 登录 浏览 ， 交 互 性 强 纸 质 印刷 报告 或 PDF 文 件 


图 5-13 ” 猎 聘 薪酬 数据 库 结构 


如 何 保证 薪酬 数据 的 准确 性 


传统 模式 下 的 薪酬 调研 会 面临 企业 提交 问卷 信息 的 真实 性 不 好 保证 从 而 影响 
数据 质量 的 问题 ， 同 样 ， 新 的 方法 论 也 会 面临 如 何 保证 数据 质量 的 问题 ， 就 是 说 
人 们 会 准确 填写 薪酬 数据 吗 ? 

一 般 会 的 。 当 一 个 人 处 于 找 工作 的 场景 下 ， 填 写 高 于 其 真实 薪酬 的 数据 会 带 
来 工作 机 会 被 推荐 的 概率 ， 但 也 会 增 大 因 背 景 调查 而 导致 求职 失败 并 影响 个 人 信 
誉 的 风险 ， 从 理性 的 角度 ， 填 写 相 对 真实 的 数据 有 助 于 其 求职 。 

当然 仍然 会 存在 可 靠 性 较 低 的 数据 ， 所 以 在 实 操 上 ， 我 们 也 进行 了 大 量 的 数 
据 处 理工 作 来 去 伪 存 真 ， 确 保 我 们 的 数据 准确 可 靠 ， 通 过 完成 样本 筛选 、 特 征 训 
练 、 设 立 标签 体系 ， 从 而 完成 简历 分 类 和 薪酬 岗位 匹配 识别 工作 ， 选 用 高 可 靠 度 
岗位 薪酬 样本 进行 统计 推断 ， 并 结合 团队 人 力 资源 专家 和 猜 聘 全 球 职业 发 展 中心 
顾问 的 调研 和 验证 工作 ， 进 行 数据 校 核 ， 最 终 发 布 时 效 性 强 、 准 确 度 高 的 薪酬 数 
据 ， 并 定期 更 新 与 维护 。 
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目前 猎 聘 已 经 上 线 互 联网 、 金 融 、 地 产 三 大 行业 共 23 个 细 分 领域 的 线 上 薪 
酬 数据 库 ， 涵 盖 财 务 、 人 事 、 法 务 等 通用 职能 及 各 行业 特有 职能 序列 ， 和 覆盖 北上 
广 深 及 主要 二 线 城市 。HR 用 户 可 以 从 地 区 、 细 分 领域 、 职 能 、 工 作 年 限 、 下 属 
情况 等 多 个 维度 筛选 对 比 岗 位 薪酬 数据 ， 并 实时 呈现 数据 对 比 图 表 ， 掌 握 最 新 市 
场 薪酬 分 位 值 (P10、P25、P50、P75、P90) 及 均值 数据 ， 帮 助人 力 资源 工作 开展 ， 
已 有 超过 4000 家 企业 级 客户 订阅 了 猫 聘 线 上 薪酬 数据 库 产品 ， 同 时 在 个 人 用 户 
端 ， 金 卡 用 户 也 可 以 访问 薪酬 数据 库 ， 定 位 自己 的 薪酬 水 平 ， 为 求职 之 路 提供 薪 
酬 参考 (图 5-14) 。 


am 
找 简历 职位 管理 简历 管理 猎头 服务 专业 服务 


行业 ，| 互联 网 季度 。 | 2016 年 第 三 季度 地 区 :| 地 区 下 轴 攻 本 报告 数据 来 源 (?) 
职能 序列 技术 产品 运营 设计 铺 售 。 市场 财务 法 务 
职 位 和 二 理 / 主 首 。 招聘 专员 /助理 。 招聘 经 理 / 主管。 组 织 发 展 (OD ) [ms7| 


图 5-14 ” 猫 聘 薪酬 数据 库 结 构 线 上 系统 
用 户 可 以 选择 不 同 的 行业 、 不 同年 份 和 季度 、 不 同 地 区 的 薪酬 报告 ， 以 互联 
网 行业 举例 ， 可 以 选择 技术 、 产 品 等 各 个 职能 序列 ， 选 择 对 应 岗位 查询 薪酬 数据 。 
猫 聘 薪酬 团队 抓 取 并 提炼 了 数 以 万 计 的 企业 岗位 信息 ， 归 纳 出 各 行业 的 通用 岗位 
体系 ， 岗 位 团 盖 水 平 可 满足 市 面 上 绝 大 多 数 的 行业 内 企业 的 需求 图 5-15) 。 


职位 薪资 ”单位 ;人民币 薪酬 数据 表 入 口 >> 
薪酬 分 位 值 解释 说 明 @ 细 分 领域 

90 分 位 加 90 分 位 : ¥300600 ES = 
75 分 位 目 75 分 位 : ¥197600 ”工作 年 限 

50 分 位 四 50 分 位 : ¥141200 [全 部 ”4 
有 无 下 属 

25 分 位 | 平均 值 ，168746 25 分 位 : ¥96600 Ee - 

10 分 位 10 分 位 : 89000 一 

0k SOK 100K 150k 200K 250K 300K 350k 一 平均 值 : 也 68746 [项 移 


图 5-15 ” 猫 聘 薪酬 数据 库 入 口 
点 击 查询 后 即 可 看 到 该 岗位 总 体 薪 酬 数据 及 对 应 图 表 ， 右 侧 可 以 更 聚焦 地 查 
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阅 该 岗位 在 不 同 的 细 分 行业 、 不 同 的 工作 年 限 、 不 同 的 下 属 情形 下 的 薪酬 分 布 情 
况 。 右上 角 的 薪酬 数据 表 入 口 可 以 实现 多 岗位 间 的 薪酬 对 比 ， 方 便 HR 进行 细 分 
行业 间或 职能 间 的 对 比分 析 工 作 (图 5-16) 。 

薪酬 对 比 ” 单位， 人 民 币 


600k 


400k 四 | 

加 I 辐 国 国 国 图 
wor] 国 一 而 ~ 量 一 重量 一 击 - 中 ~ 于- 一 昌 一 是 一 十 
中 中 中 站 中 重生 站 年 
| | 回国 面 国 


RS 各 豆 册 兴 淮 汪 虹 要 
BR < or eg a i > 澡 x we 
入 oY ee 站 


[加 90 分 位 较 75 分 位 加 50 分 位 加 25 分 位 才 10 分 位 * 平 均 仙 
图 5-16 ” 猎 聘 薪酬 数据 对 比 


同时 薪酬 对 比 表 也 会 同步 展示 所 选 岗位 在 不 同 细 分 领域 、 工 作 年 限 和 地 区 间 
的 分 位 值 分 布 情况 ， 行 业 薪酬 一 目 了 然 。 

综 上 ， 猎 聘 薪酬 数据 库 是 一 个 与 众 不 同 的 薪酬 产品 ， 依 托 海量 企业 人 才 数 据 
资源 ， 多 维度 、 多 领域 实现 岗位 聚焦 ， 可 以 即时 掌控 薪酬 动态 ， 体 验方 式 新 颖 独 
特 、 界 面 友好 、 交 互 便利 的 颠覆 性 薪酬 报告 。 订 阅 猎 聘 薪 酬 数据 服务 能 够 帮助 用 
户 获 得 交互 式 薪酬 查询 体验 ， 查 看 跨行 业 、 跨 地 区 的 市 场 薪酬 ， 获 取 跨 细 分 领域 、 
工作 年 限 、 从 属 关系 的 薪酬 对 比 图 表 分 析 结果 。 


定制 化 薪酬 调研 又 是 什么 


薪酬 数据 库 产 品 陆续 上 线 的 同时 ， 猫 聘 也 不 断 改 进 薪酬 产品 服务 体验 ， 升 级 
薪酬 产品 服务 内 容 ， 为 HR 在 人 力 资源 工作 中 提供 更 多 支持 ， 助 力 国内 企业 人 力 
资源 管理 水 平 提升 ， 定 制 化 薪酬 调研 就 是 这 样 应 运 而 生 的 产品 。 

很 多 有 薪酬 需求 的 企业 其 实 并 不 需要 也 不 必要 知道 一 个 行业 所 有 企业 或 者 该 
行业 全 部 岗位 的 薪酬 数据 ， 他 们 只 需要 知道 某 一 地 区 、 某 一 细 分 行业 的 中 高 层 管 
理 岗 位 及 关键 业务 岗位 的 薪酬 数据 , 用 于 企业 的 年 度 调 薪 或 薪酬 体系 的 参考 基准 。 
定制 化 薪酬 调研 就 是 这 样 一 款 量 身 定做 的 产品 ， 依 托 猎 聘 薪酬 数据 库 资 源 ， 面 向 
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对 招聘 岗位 有 直接 需求 的 客户 ， 提 供 精准 聚焦 岗位 的 薪酬 报告 产品 。 
定制 化 薪酬 调研 有 以 下 四 个 主要 特点 : 
1. 针对 性 强 


评估 客户 的 需求 及 岗位 的 具体 特征 ， 通 过 分 析 调研 岗位 的 具体 工作 职责 ， 对 
特定 行业 、 地 区 及 调研 群体 的 岗位 进行 匹配 并 开展 针对 性 薪酬 调研 工作 ， 最 终 呈 
现 精确 聚焦 的 薪酬 数据 。 

2. 可 靠 性 高 


运用 薪酬 数据 库 产 品 中 成 熟 运用 的 大 数据 技术 对 企业 数据 、 岗 位 数据 及 各 行 
业 人 才 数 据 去 伪 存 真 ， 确 保 样本 数据 的 准确 可 靠 。 


3. 运作 周期 短 


一 般 而 言 签 订 合同 后 10 个 工作 日 内 即 可 完成 定制 化 薪酬 调研 ， 与 传统 薪酬 
调研 相 比 ， 效 率 提 升 19 倍 。 


4. 性 价 比 高 


直击 需求 痛 点 ， 剔 除 传统 薪酬 调研 报告 中 的 无 关 信息 ， 提 供 客户 真正 想 要 了 
解 岗位 的 薪酬 数据 及 相关 服务 。 

目前 定制 化 薪酬 调研 已 经 在 互联 网 、 金 融 、 地 产 、 制 造 、 电 子 信息 、 医 药 、 
消费 品 等 行业 推广 ， 也 受到 了 HR 朋友 们 的 广泛 认可 。 未 来 定制 化 产品 也 将 随 着 
猫 聘 薪酬 福利 领域 的 不 断 积累 ， 为 客户 提供 更 专业 、 更 准确 、 更 深层 次 的 服务 ， 
助力 企业 人 力 资 源 管理 水 平 提 升 。 


ax 
第 


六 节 


2 号 人 事 部 的 大 数据 应 用 实践 ) 


现代 企业 管理 决策 ， 越 来 越 需要 从 纷繁 复杂 的 人 力 资源 数据 中 ， 分 析出 各 种 
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信息 和 线索 作为 决策 依据 。 利 用 数据 进行 分 析 和 表达 ， 也 逐渐 成 为 人 力 资源 管理 
中 重要 的 技能 领域 。 


人 力 资源 管理 数据 应 用 阶段 


目前 企业 人 力 资源 管理 ， 在 数据 方面 的 应 用 一 般 分 两 个 阶段 ， 初 级 阶段 与 高 级 阶 
段 。 初 级 阶段 是 对 本 企业 人 力 资源 工作 中 各 环节 数据 信息 的 采集 加 工 和 分 析 ， 常 用 的 
人 力 资源 数据 指标 大 致 分 为 三 类 : 员工 管理 类 、 人 力 资源 职能 类 、 人 力 资源 发 展 类 。 


1. 数据 应 用 的 初级 阶段 :小 数据 


员工 管理 类 。 企 业 通 常 将 已 收集 的 员工 数据 转变 为 图 表 形 式 ， 通 过 各 部 门 各 
岗位 之 间 做 一 个 横向 的 对 比 ， 方 便 管 理 者 整体 查看 企业 整体 的 数据 情况 ， 通 常 是 
单一 维度 的 数据 对 比 形式 。 图 5-17 更 鲜明 地 表现 了 人 力 资 源 工 作 中 关于 招聘 、 
培训 等 相关 内 容 的 实际 工作 量 以 及 工作 效率 ， 能 够 让 管理 者 清晰 地 了 解 人 事 部 门 
的 工作 情况 ， 便 于 公司 内 部 管理 。 


数量 统计 员工 结构 统计 员工 管理 统计 

1， 员 工人 数 统计 1. 各 部 门 、 岗 位 、 1.， 离职 率 统计 
2.， 各 部 门 员工 数 职级 等 结构 分 布 (整体 、 各 部 门 各 
3 增长 率 统计 2， 员 工学 历 统 计 岗位 、 工 龄 段 、 主 
4. 变化 统计 3. 员工 工龄 统计 被 动 、 原 因 分 析 ) 

4. 员工 年 龄 统计 2. 调 岗 、 异 动 

ee 晋升 、 降 职 等 


图 5-17 人力 资源 职能 类 指标 
典型 的 是 招聘 过 程 管理 中 的 金字 塔 模型 (图 5-18) 。 


招聘 管理 培训 管理 
1. 招聘 成 本 1. 培训 员工 数 
2. 过 程 管理 统计 2. 培训 费用 
3. 招聘 渠道 分 析 3. 培训 效果 评估 
4. 录用 人 员 管 理 4. 培训 讲师 管理 


图 5-18 员工 管理 类 指标 
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人 力 资源 发 展 指标 。 此 类 数据 指标 的 统计 分 析 的 目的 是 为 了 企业 的 长 期 发 展 ， 
对 比分 析 人 力 资源 方面 的 工作 准备 是 否 与 企业 的 长 期 发 展 目标 相 一 致 ( 图 5-19) 。 


基础 数据 人 才 梯 队 数据 人 力 资源 效率 统计 
人 才 素 质 统计 ， 1. 储备 干部 人 数 、 1.， 劳动 生产 率 
如 岗 级 、 学 历 、 职 占 比 ; 2， 万 元 工资 销售 
称 等 ; 2. 储备 干部 学 历 收入 ; 
符合 率 ; 3， 万 元 工资 净利 
3 储备 干部 历练 润 


5-19 ”人力 资源 发 展 类 指标 


这 些 常见 的 人 力 资 源 数据 分 析 严 格 上 来 说 ， 并 不 是 “大 数据 ” “数据 挖 气 ”， 
“数据 预测 ”的 概念 。 大 数据 分 析 基 于 的 是 大 数据 ， 其 特点 就 是 数据 量 大 ， 要 达 
到 TB 甚至 PB 的 数据 量 。 这 样 的 数据 量 ， 特 别 是 人 力 资源 管理 相关 的 数据 量 ， 
几乎 不 太 可 能 在 单独 一 家 企业 中 出 现 。 而 这 种 基于 真正 的 大 数据 分 析 的 管理 应 用 ， 
我 们 定义 其 为 数据 应 用 的 第 二 阶段 ， 也 称 为 高 级 阶段 。 


2. 数据 应 用 的 高 级 阶段 : 大 数据 分 析 


从 大 数据 应 用 所 涉及 的 技术 看 ， 大 数据 分 析 一 般 包 括 原始 数据 采集 、 数 据 清 
洗 、 数 据 保存 、 数 据 挖掘 、 预 测 模型 、 结 果 呈 现 等 多 个 方面 ， 另 外 包含 必要 的 基 
础 架构 〈 云 服务 、 云 存储 、 安 全 监控 等 ) 这 几 大 环节 。 下 面 将 对 其 中 几 个 重要 环 
节 做 简单 探讨 。 

(1) 在 原始 数据 采集 方面 

需要 能 够 将 人 力 资源 管理 过 程 中 的 信息 有 效 地 采集 出 来 ， 通 常 包括 但 不 限于 
员工 管理 、 培 训 管理 、 素 质 评测 、 绩 效 考核 、 招 聘 管 理 等 角度 ， 目 前 具备 这 种 数 
据 采集 能 力 的 信息 化 系统 比较 常见 ， 而 其 中 关键 的 因素 在 于 ,是 否 能 够 足够 细 化 ， 
以 及 是 否 能 够 不 断 常态 化 地 进行 数据 提取 和 分 析 ， 原 始 数据 的 颗粒 度 越 小 则 对 后 
续 进 行 数据 分 析 的 支持 力度 越 大 ， 而 颗粒 度 越 小 带 来 的 对 企业 人 力 资源 管理 中 所 
必须 的 要 求 是 信息 化 建设 和 应 用 的 场景 要 足够 多 和 足够 深 ， 这 对 企业 的 信息 化 和 
管理 要 求 非常 高 。 
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(2) 在 数据 的 特点 方面 

人 力 资源 数据 往往 具有 分 散 性 特点 ， 比 如 做 人 力 资源 效能 分 析 ， 就 必然 需要 
公司 在 经 营 方面 的 数据 ， 才 能 做 到 对 劳动 生产 率 、 人 工 成 本 、 人 均 产 能 、 创 利 能 
力 等 进行 分 析 ; 而 要 做 人 员 流 动 性 分 析 ， 以 及 薪酬 的 公平 性 分 析 ， 不 仅 需 要 内 部 
数据 ， 还 要 能 够 获取 行业 数据 ， 甚 至 是 区 域 性 相关 的 数据 ， 另 外 ， 某 些 类 型 的 数 
据 分 析 ， 需 要 收集 政府 不 同 部 门 所 发 布 的 统计 数据 ， 这 些 数据 的 特点 ， 就 对 数据 
来 源 和 采集 方面 带 来 相当 高 的 要 求 ， 随 之 而 来 的 ， 就 是 数据 的 结构 性 差异 复杂 性 ， 
需要 能 够 兼容 分 析 。 

(3) 在 数据 挖掘 方面 

人 力 资源 大 数据 分 析 ， 因 为 涉及 的 分 析 角 度 比较 多 ， 必 然 会 交叉 结合 多 种 数 
据 分 析 的 算法 。 比 如 在 统计 分 析 中 ， 会 用 到 假设 检验 、 多 元 回归 分 析 、 聚 类 分 析 、 
方差 分 析 以 及 针对 规则 挖掘 的 分 类 、 估 计 、 预 测 、 相 关 性 分 组 等 。 数 据 挖 掘 环节 
是 一 切 后 续 应 用 的 基础 。 

(4) 在 预测 模型 环节 

这 是 大 数据 分 析 的 重要 环节 ， 不 管 是 数据 采集 ， 还 是 对 规则 的 挖掘 ， 其 重要 
的 应 用 目的 ， 也 就 是 说 大 数据 分 析 的 核心 目的 之 一 ， 就 是 对 目标 的 预测 ， 一 般 涉 
及 的 技术 领域 包括 机 器 学 习 、 建 模仿 真 等 。 

(5) 在 结果 呈现 方面 

通常 来 说 ， 常 规 的 大 数据 应 用 ， 往 往 通 过 云 计算 、 标 签 云 、 关 系 图 等 方式 进 
行星 现 , 而 人 力 资源 管理 中 进行 大 数据 应 用 的 高 级 阶段 在 于 指导 日 常 的 管理 工作 ， 
需要 能 够 用 最 简单 的 方式 体现 在 日 常事 务 中 ， 才 能 真正 把 大 数据 分 析 的 价值 发 挥 
出 来 ， 并 借 此 提高 企业 管理 的 效率 。 


辆 由 人 力 资源 管理 SaaS 平台 2 号 人 事 部 实践 


人 力 资源 管理 SaaS 平台 2 号 人 事 部 是 如 何 实现 各 类 企业 来 提供 大 数据 应 用 
服务 的 呢 ? 首先 要 解决 的 就 是 原始 数据 的 采集 过 程 。 这 里 面包 含 两 个 角度 的 数据 
支持 。 
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1. 协助 企业 进行 内 部 的 数据 采集 


通过 为 企业 提供 基于 提高 日 常事 务 管理 效率 的 平台 工具 ， 帮 助 企 业 人 资 管理 
中 各 环节 的 角色 提升 工作 效率 ， 并 通过 移动 互联 网 使 企业 各 级 管理 人 员 与 员工 之 
间 的 互动 变 得 高 效 ， 实 现 人 资 管理 的 数据 化 。 另 外 ， 通 过 标准 化 API 架构 设计 ， 
系统 可 以 非常 便捷 地 与 企业 其 他 已 有 业务 系统 进行 对 接 ， 从 而 实现 内 部 异 构 数据 


的 采集 。 目 前 已 经 实现 的 功能 点 包括 : 工作 台 
工 自助 管理 、APP 以 及 微 信 等 各 种 数据 端 ， 如 图 5-20 


局 征管 

员工 管理 

员工 信息 

1. 入 职 . 人 转正 在 线 操作 ， 员 工 还 可 自助 填写 入 
职 登 记 表 。2. 标 准 人 事 撞 作 流程 参 刘 


于 等， 二 角 入 其 ， 庆 全 革 动 风险 。9 在 绑 生 钱 在 取 、 


高 职 、 收 入 证 明 等 人 事 表 单 - 


组 织 架 构 
1. 实 时 自动 生成 组 织 架 构图 ， 可 /局 提 和 由 本 和 
管理 ，2 .支持 按 部 门 查看 ， 员 工 岗位 调整 一 


统计 概况 

坟 和 人 2. 员 工分 布 、 
一 全 发 送 生 也 统计 报告 , 一 键 

EE 


人 事 动态 
时 间 轴 查看 企业 人 力 资源 管理 工作 历史 ， 每 月 人 事 事 
项 随时 可 得 


5-21 员工 管理 功能 


、 档 案 管理 、 薪 酬 、 社 保管 理 、 员 


一 图 5-22 所 示 。 


我 的 工作 台 


人 事 日 历 
当日 符 办 事项 、 法 定 节假日 、 员 工 转 正 、 、 合 网关、 员 
工 生日 、 入 职 周年 等 重要 日 期 一 目 了 然 


工作 提醒 

临近 事情 和 延期 事项 多 屏 提醒 ， 包 括 生日 、 周 年 
到 期 、 转 正 等 重要 事情 ， 确 保 工作 及 时 ， ja 
各 种 烦琐 事项 。 


用 工 风险 提醒 
每 一 个 操作 细节 都 在 提醒 企业 用 工 风险 点 和 风险 等 级 
用 工 风险 动态 随手 掌握 
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手机 APP 功 能 


工作 日 历 
人 事 日 历 的 工作 动态 ; 入 职 、 合 同 到 期 、 员 工 生日 
等 事项 及 时 提醒 。 


员工 档案 上 传 
拍照 上 传 和 职 、 合 同 、 转 正 、 离 职 等 已 有 的 纸 质 材 
料 ; PC 端 即 时 同步 查看 ， 永 久 云 储存 。 


OCR 智能 识别 证 件 
身份 证 、 银 行 卡 ， 社 保 卡 等 直接 拍照 ， 将 会 智能 识 
别 卡号 ， 高 效 又 无 忧 


APP 加 密 
图 形 手势 、 指 纹 解 匀 等 确保 账号 、 信 息 安全 。 


5-22 手机 APP 


2. 协助 企业 进行 外 部 数据 采集 


目前 2 号 人 事 部 已 经 实现 了 多 达 72 种 外 部 数据 来 源 的 集成 和 合作 ， 包 括 征 
信 系 统 、 学 历 认 证 系统 、 身 份 证 验证 系统 、 公 安 部 黑 名 单数 据 、 失 信 数 据 、 司 法 
系统 、 工 商 管理 信息 系统 、 背 景 调 查 系统 等 多 方面 的 数据 对 接 ， 可 以 帮助 企业 在 
数据 分 析 的 时 候 获得 必要 的 数据 支持 。 

2 号 人 事 部 上 线 5 个 月 , 入 住 企 业 12 万 家 , 目标 在 3 年 内 达到 企业 数 100 万 家 。 
跨 企业 所 形成 的 数据 统计 方式 ， 会 对 单独 一 家 企业 的 数据 分 析 带 来 直接 的 支持 ， 
比如 行业 薪酬 水 平 ， 区 域 性 、 行 业 性 或 者 阶段 性 的 用 工 需求 分 析 等 ， 都 可 以 成 为 
企业 内 部 进行 分 析 的 数据 支持 。 目 前 所 涉及 的 行业 分 布 以 及 规模 分 布 如 图 5-23 
所 示 。 


et 
用 户 所 在 行业 分 布 
行业 此 
制造 业 192% 
MIT | 154% 
批发 和 季 舍 | 72% 规模 2 
房地产 G1% 20-99 人 | 380% 
金融 保险 “| 53% 
医疗 /保健 “| 51% 100-500 人 | 376% 
教育 46% 而 20-99 人 
500 人 以 上 | 144% 
Ee Sa 100-500 人 
2 了 
11-19 人 | 62% 
咨询 顾问 25% a ee 
交通 物流 运输 | 21% 10 人 以 下 | 3.8% es 
文 仙 体 育 上 乐 | 19% 国 10 人 以 下 
广告 市 声 15% 
100-500 人 
旅游 业 1 38% 


图 5-23 2 号 人 事 部 的 行业 分 布 及 规模 
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鼎 R 企业 用 工 风险 的 警示 和 解决 


基于 这 两 个 角度 的 数据 来 源 支 持 ， 简 单 举例 介绍 一 个 2 号 人 事 部 能 够 为 企业 
( 含 大 中 小 微 企业 〉 提供 的 一 个 大 数据 应 用 案例 : 企业 用 工 风险 的 警示 和 解决 。 

用 工 风险 管控 是 每 家 企业 都 面临 的 常见 难题 之 一 ， 这 个 问题 的 来 源 有 多 种 因 
素 ， 一 个 是 国家 在 用 工 政策 实施 过 程 中 的 不 平衡 ， 另 一 个 是 企业 不 重视 ， 还 有 就 
是 人 力 资源 从 业者 专业 知识 的 欠缺 。 如 果 需 要 解决 这 个 问题 ， 也 必然 需要 从 此 两 
个 角度 中 进行 分 解 。 

针对 政策 的 提取 和 分 析 ，2 号 人 事 部 通过 对 员工 从 入 职 到 离职 过 程 中 可 能 产 
生 的 231 个 风险 点 进行 了 筛选 ， 分 解 和 提取 了 相应 的 法 律 条 文 和 风险 后 果 ， 从 而 
解决 对 政策 理解 的 信息 化 和 标准 化 。 

通过 对 所 有 劳资 纠纷 案例 的 分 析 和 跟踪 ， 对 已 经 发 生 的 劳资 纠纷 结果 进行 统 
计 ， 与 人 力 资源 管理 过 程 中 可 能 的 风险 点 进行 挂钩 ， 从 而 实现 对 企业 用 工 风险 的 
预 判 以 及 后 果 的 预测 。 

将 前 面 大 数据 分 析 后 的 风险 模型 与 软件 操作 中 的 具体 功能 进行 对 接 ， 从 而 帮 
助 操作 者 在 日 常事 务 处理 中 ， 被 警示 和 协助 处 理 遇 到 的 风险 : 后 果 的 预 判 ， 会 帮 
助 企业 加 强 对 用 工 风险 的 重视 程度 ， 而 对 日 常 工作 的 规范 ， 则 能 够 帮助 企业 的 人 
力 资源 从 业者 大 大 降低 对 《劳动 法 》 条 文 的 学 习 门 槛 ， 并 且 可 以 通过 平台 直接 进 
行 针对 性 的 处 理 。 从 而 规避 企业 风险 ， 降 低 企业 成 本 ， 并 提高 管理 的 效率 和 专业 
程度 。 

从 以 上 案例 的 分 析 可 以 发 现 ， 通 过 2 号 人 事 部 ， 实 现 大 数据 在 企业 管理 中 的 
应 用 ,能 够 最 有 效率 地 解决 各 类 企业 ,特别 是 中 小 微 企 业 ， 在 人 力 资源 管理 方面 ， 
因为 信息 不 全 、 编 制 不 够 、 专 业 性 不 强 、 企 业 不 够 重视 等 多 方面 因素 所 造成 的 人 
力 资源 管理 效率 不 高 的 问题 ， 从 而 大 大 提高 了 企业 的 管理 效率 ， 降 低 了 企业 的 经 
营 成 本 ， 帮 助 企 业 在 现代 化 竞争 中 处 于 优势 位 置 。 
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在 瞬息 万 变 的 时 代 ， 人 力 资 源 管理 的 未 来 面临 什么 样 的 趋势 ? 这 是 所 有 HR 
从 业者 , 甚至 CEO 都 在 关心 和 迫切 想 要 了 解 的 。 组 织 变革 、 并 购 、 合 弄 制 、 大 数据 、 
敏捷 绩效 等 都 是 移动 互联 网 时 代 的 新 名 词 ， 那 人 力 资源 的 下 一 幕 是 什么 呢 ? 人 工 
智能 ! 人 工 智能 将 给 人 力 资源 领域 带 来 什么 样 的 变革 和 战略 转型 呢 ? 本 部 分 内 容 
尚 不 能 系统 梳理 AI 在 人 力 资源 领域 的 应 用 趋势 ， 仅 仅 从 几 点 提出 一 些 思考 ， 以 
供 人 力 资源 管理 者 思考 。 


1. 人 工 智能 技术 在 人 力 资源 领域 中 的 应 用 了 


2017 年 是 个 分 水 岭 ， 因 为 人 工 智能 开始 应 用 于 人 力 资源 领域 ， 并 逐步 开始 
显现 其 独特 的 价值 。 

人 脸 识 别 技术 已 经 在 人 力 资源 里 的 一 些 场景 落地 ， 比 如 刷 脸 门禁 、 人 脸 支付 ， 
已 在 百度 总 部 实现 ， 刷 脸 考勤 也 将 会 在 分 公司 实现 (图 6-1 与 图 6-2) 。 招 聘 领 
域 的 在 线 考试 也 可 以 通过 刷 脸 来 识别 真实 考生 防止 替 考 。 


图 6-1 人 脸 识 别 技术 应 用 于 考勤 


@ 资料 来 源 ， 王 崇 良 .AI 在 人 力 资源 领域 的 应 用 趋势 .2017 年 eHR 夏季 论坛 的 讲话 . 
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图 6-2 人 脸 识别 技术 应 用 于 支付 


还 有 HR 智能 机 器 人 ， 可 以 自助 打印 证 明 等 ， 节 省 服务 时 间 提 升 效率 ， 增 强 
用 户 体验 。 
OCR 技术 可 用 于 识别 拍照 上 传 的 纸 质 简 历 或 图 片 简历 ，OCR 是 第 一 步 ， 简 
历 解析 是 第 二 步 ， 快 速 几 秒 就 能 变 成 数据 库 的 结构 化 简历 。HR 和 面试 官 如 果 想 
对 简历 做 备注 ,也 无 须 打字 , 直接 说 话 就 能 通过 语音 识别 技术 变 为 文字 , 轻松 备注 。 


2. 基于 Al 技术 下 的 HR 信息 化 变革 


简单 来 讲 ， 就 是 增加 了 AI 技术 应 用 层 ， 将 图 像 识别 、 语 音 识别 、 用 户 画像 、 
对 话机 器 人 等 技术 广泛 应 用 到 了 人 力 资 源 系统 与 流程 中 ， 背 后 仍然 是 大 数据 技术 
驱动 的 人 力 资源 相关 用 户 产 品 ， 助 力 管理 决策 与 战略 转型 (图 6-3) 。 


可 视 化 HR 用 户 产品 

下 下 下 下 

图 像 技术 语音 技术 用 户 画 像 机 器 人 

AH 技术 人 脸 识别 语音 识别 员工 画像 智能 客服 
应 用 层 | | Pu 儿 像 识别 | | 电 语音 全 ID Mapping | | 民国 身 从 识别 

图 像 搜索 人 机 交互 

不 
平台 层 机 器 学 习 、 数 据 训练 平台 
不 

大 数据 过 三 
安 持 下 | | (用 户 行为 】 【行业 大 数据 】 。 语音 大 数据 | 【图像 大 数据 
系统 层 | | ERP、OA、 人 事 相关 系统 、 论 坛 、 人 脸 门禁 、 刷 脸 支 付 、 可 穿戴 移动 设备 …… 


图 6-3 Al 技术 下 的 HR 信息 系统 迭代 升级 
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3. 基于 Al 技术 下 的 人 才 特 征 


2017 年 7 月 12 日 , 谷歌 宣布 了 一 项 全 新 计划 , 名 为 “人 类 与 Al 研究 ”(People 
+ AI Research，PAIR) ， 和 希望 智能 机 器 与 人 类 紧密 合作 。 未 来 凡是 能 标准 化 的 工 
作 ， 将 会 被 机 器 人 替代 ， 需 要 脑力 辨析 能 力 、 情 感 交 流 的 工作 将 不 可 替代 。 

首先 ， 数 字 经 济 下 ， 无 法 被 技术 所 取代 的 人 才 技 能 的 重要 性 越发 凸显 。 然 而 ， 
劳动 力 市 场 高 素质 人 才 的 结构 性 短缺 却 成 为 制约 诸多 中 国企 业 发 展 的 核心 瓶颈 。 
其 次 ， 数 字 经 济 对 各 行业 组 织 数 字 化 转型 的 激发 ， 更 是 加 剧 了 企业 间 的 人 才 争 夺 
战 ， 尤 其 凸显 了 对 高 阶 、 稀 缺 的 数字 化 人 才 、 跨 界 人 才 的 旺盛 需求 ， 以 及 在 企业 
成 功 吸引 他 们 之 后 ， 如 何 有 效 管理 的 新 议题 。 最 后 ， 数 字 经 济 下 ，“90 后 ”“95 
后 ”新 生 代 成 为 职场 主力 军 ， 这 一 群体 鲜明 的 个 性 特征 、 就 业 文化 及 价值 观 同样 
对 企业 的 传统 人 才 管 理 模式 提出 挑战 。 

数字 技术 深入 改变 了 诸多 传统 行业 的 商业 逻辑 ， 尤 其 是 能 够 在 垂直 行业 内 深 
度 应 用 数字 化 技术 、 理 解 互联 网 + 运作 方式 的 跨 界 人 才 一 一 他 们 既 需 要 具备 数字 
化 思维 和 能 力 ， 又 要 熟悉 行业 的 业务 模式 及 流程 。 对 于 HR 来 说 ， 面 临 的 挑战 更 
是 前 所 未 有 ， 不 仅仅 要 面 对 AI 技术 背景 下 对 数字 技术 人 员 的 岗位 需求 及 人 员 素 
质 界定 、 对 具有 较 强 流动 性 特征 的 高 阶 数字 人 才 与 新 生 代 的 管理 与 开发 ， 还 要 面 
对 自身 素质 能 力 的 极 大 挑战 。 

戴 维 。 尤 里 奇 的 研究 显示 : 中 国人 力 资源 从 业者 在 9 大 胜任 力 方面 ， 合 规 性 、 
可 信赖 的 行动 派 两 个 维度 上 做 得 最 好 ， 而 这 两 个 维度 正 是 HR 专业 性 的 体现 。 在 
战略 定位 者 、 矛 盾 朴 导 者 两 个 维度 上 相对 较 弱 ， 而 恰恰 这 两 个 维度 对 业务 影响 最 
大 ， 也 是 老板 最 关注 的 。 所 以 ， 我 们 在 坚持 不 断 发 挥 专业 能 力 的 基础 上 ， 要 往 对 
业务 产生 影响 最 大 化 的 方向 努力 ， 解 老板 之 痛 。 那 是 不 是 说 不 用 关注 “ 合 规 性 ” 
与 “可 信赖 的 行动 派 ” 了 ， 因 为 它们 对 业务 的 影响 很 小 ? 答案 是 否定 的 ， 因 为 这 
是 我 们 从 事 人 力 资 源 领域 的 敲门砖 。 数 据 分 析 的 设计 与 解读 ， 也 要 反映 这 些 趋势 
(图 6-4) 。 
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按 重要 性 排列 HR 胜任 力 : 基于 目前 的 实际 效能 和 对 业务 的 影响 


Hi 高 4.4 
4.38 令 合 规 管控 者 
今 可 信 束 的 行动 派 
4.3 
丰 4.2 
战略 定位 者 
多 ”4.1 |@ 9 文化 和 变革 倡导 者 
2 数据 的 设计 和 解读 者 9 人力 资 未 管理 者 矛 后 大 时 者 多 
3 40 
加 @ 技术 和 媒体 整合 者 
人 人 薪酬 福利 大 管家 
Lo 低 
3.89 3 
0 8 16 24 了 2 
Lo 低 Business Impact Hi 高 
2% 对 业务 的 影响 32% 


6-4 ”HR 个 人 效能 与 胜任 力 之 间 的 关系 


面 对 数 字 技术 、 互联 网、 人 工 智 能 、 大 数据 , HR 人 员 首先 是 自己 本 身 的 变革 ， 
HR 传统 理论 知识 框架 及 曾经 引 以 为 豪 的 “实践 ”不 再 是 HR 的 优势 ， 而 是 需要 
打破 “常规 ”， 自 身 更 加 持续 地 学 习 和 实践 数字 革命 带 来 的 颠覆 性 的 跨 学 科 理 论 
框架 ， 提 升 数 字 经 济 下 的 组 织 及 岗位 胜任 能 力 。 


Q@ 戴 维 " 尤 里 奇 . 与 HR 之 父 戴 维 。 尤 里 奇 的 零 距离 互动 . (应 肯 耐 珂 萨 邀 请 于 2016 年 11 月 16 日 
在 上 海 的 演讲 (HRoot) ) . http://wwwhrootcomycontents/6/323427.html. 
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马云 讲 过 这 么 一 段 话 ， 他 说 当 我 们 大 家 还 不 懂得 计算 机 的 时 候 ， 网 络 时 代 来 
临 了 ， 当 我 们 大 家 还 不 懂得 网 络 的 时 候 ， 大 数据 时 代 来 临 了 。 这 两 句 话 非常 值得 
琢 麻 ， 琢 磨 什么 呢 ? 就 是 这 个 世界 变化 太 快 ， 搞 得 不 好 ， 我 们 就 要 落伍 ， 这 种 现 
象 有 吗 ? 有 的 。100 多 年 前 的 美国 正在 从 马车 时 代 走 向 汽车 时 代 ， 当 时 的 汽车 大 
王 叫 福特 ， 他 询问 了 好 多 美国 人 ， 问 他 们 现在 最 需要 什么 ， 那 些 美 国人 说 ， 我 们 
现在 很 需要 一 匹 更 快 的 马 ， 我 们 需要 更 快 的 马车 。 

这 种 过 时 的 ， 被 时 代 淘 汰 的 思想 、 思 维 ， 现 在 有 吗 ? 现在 也 有 。 比 方 说 有 人 
认为 现在 大 数据 跟 我 们 的 人 力 资 源 没关系 ， 是 没有 关系 吗 ? 还 有 人 认为 ， 大 数据 
在 人 力 资源 领域 的 应 用 只 是 雾 里 看 花 , 纯 属 概念 化 的 东西 , 大 数据 离 我 们 还 远 吧 ? 
当然 ， 还 有 一 部 分 人 ， 他 们 深刻 感受 到 了 大 数据 对 人 力 资源 带 来 的 冲击 和 茵 覆 性 
的 影响 ， 如 饥 似 渴 地 想 找到 应 用 的 模型 、 技 术 和 场景 。 

对 于 我 个 人 而 言 ， 接 触 到 “大 数据 ”的 概念 也 仅仅 在 2015 年 。 那 个 时 候 ， 
还 只 是 停留 在 概念 上 ， 有 具体 什么 是 大 数据 、 大 数据 对 人 力 资 源 会 有 什么 影响 ， 我 
没有 过 多 的 思考 和 进一步 的 理解 。 真 正 开 始 去 研读 大 数据 的 思想 源 于 人 才学 黄 基 
人 王 通讯 老师 。 记 得 是 在 2016 年 1 月 北京 城市 学 院 第 一 届 MPA 的 “拜师 礼 ” 上 ， 
我 们 作为 研究 生 指 导 老 师 ， 为 每 一 位 MPA 的 同学 准备 了 一 份 “ 厚 礼 ” 一 一 徐 子 
沛 著 的 《大 数据 》。 在 这 里 ， 我 必须 要 提 这 次 “拜师 礼 ”， 因 为 这 次 活动 ， 让 我 
捕捉 到 了 一 次 千 载 难 着 的 机 会 ， 就 是 在 我 还 对 大 数据 停留 在 概念 层次 上 的 时 候 ， 
“拜师 礼 ”之 余 我 和 通讯 老师 又 进行 了 一 次 深度 交流 我 盛情 邀请 了 通讯 老师 作 
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为 我 们 第 一 届 MPA 的 校外 学 术 导师 ) 。 虽 然 ， 我 和 通讯 老师 之 前 经 常会 在 他 家 
楼 下 的 咖啡 馆 交 流 思想 ， 每 次 的 交流 ， 我 都 收获 颇 丰 ， 故 与 通讯 老师 一 月 一 度 的 
交流 成 为 我 的 “精神 食粮 ”。 但 由 于 工作 的 繁忙 ， 有 将 近 半 年 的 时 间 未 能 见 到 通 
讯 老师 ， 这 次 “拜师 礼 ”的 沟通 交流 ， 通 讯 老师 又 跟 我 提起 了 “大 数据 ”。 那 时 
那 刻 ， 我 燃 起 了 对 “大 数据 ”的 探究 欲望 ， 它 和 我 一 直 “ 钟 爱 ” 的 人 力 资 源 是 个 
什么 关系 ? 大 数据 技术 应 该 怎样 与 人 力 资源 亲密 接触 ? 再 次 , 我 又 跟 紧 了 我 的 “ 终 
身 导 师 ” 一 一 通讯 老师 去 学 习 研 究 这 个 问题 。 

从 兴趣 到 深入 研究 ， 再 到 萌发 撰写 一 本 关于 “人 力 资源 + 大 数据 ”的 书籍 ， 
至 今 已 经 历时 一 年 半 的 时 间 。 撰 写 这 本 非常 前 沿 的 书籍 ， 对 我 可 以 说 困难 重重 。 
虽然 我 对 人 力 资源 管理 有 一 定 的 研究 ， 但 毕竟 对 大 数据 的 理解 ， 尤 其 是 大 数据 技 
术 还 是 似 懂 非 懂 ， 我 尽 可 能 大 量 阅 读 ， 并 深入 企业 调研 访谈 ， 和 HR 或 HRD 深 
度 交 流 ， 了 解 人 力 资源 与 大 数据 结合 的 前 沿 实践 。 但 这 些 还 不 够 ，“ 人 力 资源 + 
大 数据 ”是 一 个 交叉 学 科 ， 当 然 需要 交叉 学 科 的 人 才 ， 这 方面 人 才 目 前 确实 非常 
稀少 ， 我 意识 到 必须 组 建 一 个 结构 合理 的 研究 团队 ， 所 以 ， 邀 请 了 百度 人 力 资源 
大 数据 平台 的 负责 人 王 崇 良 先生 给 予 了 很 多 指导 ， 并 亲自 参与 撰写 本 书 的 核心 内 
容 。 同 时 还 邀请 了 海归 大 数据 专家 黄 秋 钧 先生 亲自 撰写 大 数据 技术 部 分 。 在 此 书 
撰写 中 ， 我 们 这 个 3 人 团队 配合 得 非常 好 ， 我 属于 “产品 经 理 ” 的 角色 ， 设 计 整 
个 书 的 架构 ， 同 时 侧重 从 人 力 资源 角度 谈 大 数据 ， 秋 钧 老弟 以 “数据 架构 师 ” 角 
色 痢 述 大 数据 技术 ; 对 于 崇 良 兄 ， 我 更 愿意 以 “拿手 术 刀 的 大 夫 ” 来 形容 他 的 角 
色 ， 他 是 理论 兼 实践 完美 结合 的 行业 专家 。 

其 实 ， 对 于 本 书 的 结构 和 内 容 ， 我 们 经 过 了 多 次 的 设计 和 修改 。 目 前 ， 国 内 
市 场 上 无 论 是 本 土 还 是 翻译 过 来 的 相关 书籍 , 基本 是 从 理念 , 或 者 从 纯 技术 角度 ， 
抑或 从 案例 角度 进行 宏观 描述 ， 把 大 数据 和 人 力 资源 结合 在 一 起 的 鲜 有 出 现 。 我 
们 期 待 通过 本 书 能 够 从 人 力 资源 从 业者 、 公 司 CEO 及 高 管 、 大 数据 从 业者 及 爱 
好 者 的 可 能 需求 出 发 ， 使 他 们 能 够 从 人 力 资 源 和 大 数据 结合 的 理论 及 实践 中 获得 
启示 ， 并 能 够 用 到 实际 工作 中 。 所 以 ， 我 们 先 从 人 力 资源 管理 的 战略 转型 谈 起 ， 
使 大 家 进一步 理解 和 把 握 人 力 资 源 发 展 的 趋势 ， 进 而 探讨 人 力 资源 大 数据 分 析 的 
概念 、 技 术 及 应 用 场景 ， 并 以 人 力 资 源 大 数据 应 用 案例 给 大 家 以 思想 上 的 洗礼 、 
技术 上 操作 的 方法 及 大 数据 应 用 的 实践 。 

大 数据 是 新 鲜 名 词 ， 尽 管 其 关注 度 及 实践 应 用 好 似 在 行业 内 “四 处 开花 ”， 
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但 其 理论 研究 及 实践 应 用 尚 处 在 初级 阶段 ， 加 上 本 人 的 研究 水 平 尚 浅 ， 故 本 书 的 
内 容 需 要 进一步 完善 ,尤其 最 后 一 章 本 来 要 谈 谈 AI 在 人 力 资源 的 应 用 “洞察 ”， 
但 是 由 于 研究 的 深度 不 够 及 实践 领域 的 局 限 ， 尚 不 敢 提 出 有 深意 的 “洞察 ”， 只 
能 借 此 谈 几 点 看 法 。 期 待 随 着 大 数据 技术 的 发 展 ， 大 数据 在 人 力 资源 领域 有 更 加 
广 变 和 深度 的 应 用 。 
最 后 , 还 要 感谢 在 本 书 的 撰写 过 程 中 得 到 的 各 方 理论 及 实践 专家 的 支持 和 帮助 。 
在 人 力 资源 大 数据 研究 过 程 中 ， 遇 到 过 种 种 困难 ， 曾 经 一 度 想 放弃 ， 但 通讯 老师 一 直 
在 鼓励 ， 并 给 予 我 指导 ;中 国人 事 科学 研究 院 的 周建华 处 长 时 时 对 我 鼓劲 加 油 ! 非常 
感动 的 是 崇 良 兄 和 秋 钧 老弟 在 繁忙 的 工作 中 对 本 书 的 倾情 付出 ， 每 每 深夜 和 凌晨 我 们 
在 微 信 上 的 沟通 交流 , 更 是 让 我 看 到 大 家 对 这 本 书 寄予 的 深厚 感情 , 我 必须 丰硕 前 行 ! 
特别 感谢 中 国人 民 大 学 劳动 人 事 学 院 院 长 杨 伟 国 教授 、 北 京 双 高 国际 人 力 资 
本 集团 总 裁 薄 北 麒 先生、“ 人 力 资源 第 一 股 ” 科 锐 国际 董事 长 高 勇 先生 、 北 京 外 
企 人 力 资源 服务 有 限 公 司 党 委 书 记 温 沁 山 先生 、 猫 聘 网 首席 数据 官 单 艺 先生 、 前 
谷歌 中 国 第 一 任 HR 张 莉 女 士 〈 现 为 合 众 人 寿 HRVP) 、 国 内 知名 的 人 力 资源 信 
息 化 专家 左 葆 瑜 先生 、 才 源 国际 总 经 理 卢 金海 先生 等 ， 给 予 本 书 撰写 提供 的 指导 
和 支持 ! 同时 感谢 马 海 刚 、 彭 剑 锋 、 西 楠 撰写 的 《HR+ 三 支柱 一 一 人 力 资源 管 
理 转型 升级 与 实践 创新 》， 戴 维 。 尤 里 奇 著 ， 李 祖 滨 、 孙 晓 平 译 的 《人 力 资 源 转 
型 一 一 为 组 织 创造 价值 和 达成 成 果 》 等 为 代表 的 涉及 人 力 资 源 行业 发 展 前 沿 的 相 
关 书 籍 ， 以 及 相关 媒体 提供 的 资料 ， 使 我 们 得 以 更 加 全 面 了 解 和 把 握 人 力 资源 大 
数据 的 理论 和 实践 情况 。 感 谢 北京 城市 学 院 14 人 资本 范 宇 同 学 对 “HR 数据 观 ” 
公众 号 的 运营 和 维护 ， 使 我 得 以 及 时 高 效 地 把 大 数据 及 人 力 资源 发 展 前 沿 的 信息 
保存 并 传递 给 大 家 。 感 谢 15 人 资本 的 祁 雯 同学 ， 以 其 专业 和 认真 的 态度 对 书 中 
部 分 配 图 进行 设计 和 修改 。 
最 后 ， 感 谢 我 们 研究 团队 的 家 人 ， 我 们 每 个 人 都 是 在 繁忙 的 工作 之 余 ， 甚 至 
熬夜 至 凌晨 进行 研究 和 撰写 , 没有 家 人 的 支持 和 理解 ,恐怕 也 无 法 高 效 完成 书稿 。 
我 同样 用 “东风 弄 巧 补 残 山 ， 一 夜 吹 添 玉 数 竿 ”的 诗句 来 表达 现在 的 心情 ， 
并 以 此 鼓励 自己 ， 在 诸多 理论 及 实践 专家 倾 力 指导 的 关爱 下， 在 “钟爱 ”的 人 力 
资源 研究 中 能 够 春风 劲 吹 ， 不 时 增添 翠 笋 新 绿 。 
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